24小时热门版块排行榜    

查看: 2787  |  回复: 7
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

xiaoxuan1111

铁杆木虫 (正式写手)

[求助] 集群下Castep多CPU计算出现问题 已有1人参与

我用的是学校的集群,利用castep进行几何优化,pbs文件如下
#!/bin/sh
#PBS -N pppa
#PBS -l nodes=1:ppn=8
#PBS -o /home/lgx2015/out
#PBS -e /home/lgx2015/err
#PBS -m bae
cd /home/lgx2015/aa5
/home/lgx2015/Accelrys/MaterialsStudio7.0/etc/CASTEP/bin/RunCASTEP.sh Cs2NaYF6

这样是可以运行的,大概一个小时就能得到结果,但是这样是单核计算,因为我还有更复杂的计算,单核有点慢,所以想多核运行。
我把它改成多核的话,就是把上面的pbs文件最后一行改为/home/lgx2015/Accelrys/MaterialsStudio7.0/etc/CASTEP/bin/RunCASTEP.sh -np 8 Cs2NaYF6
只是加了-np 8
任务提交上去后,发现集群倒是分配了相应的节点和CPU,但是实际上并不进行运算
请问这种情况,问题出在哪里呢?
学校的集群并没有安装materials studio,我是在自己的用户目录下安装的
就是说我可以单核运行castep,多核就不行了,这个怎么办呢,是哪里设置有问题吗
这些修改操作我都完成了,修改Accelrys/MaterialsStudio7.0/share/data下的machines.LINUX,  写上各节点的机器名:CPU数。
修改Accelrys/MaterialsStudio7.0/etc/Gateway/root_default/dsd/conf文件夹里面两个文件里的CPU数为各节点CPU总数。
回复此楼

» 收录本帖的淘帖专辑推荐

xuexijisuan 可能会用到的

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

你想要什么,如何得到想要的,现在应该怎么做?
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

devinhu

木虫 (小有名气)

引用回帖:
2楼: Originally posted by devinhu at 2015-08-07 21:03:50
#!/bin/bash
#PBS -N test1
#PBS -r n
#PBS -j oe
#PBS -l walltime=72:00:00
#PBS -l nodes=4:ppn=8
#PBS -q normal

project_name=CO_1    # change name here!!!
EXE=castepexe.exe



####### ...

忘记说明了,上面是我们的torque的脚本,,仅供参考
3楼2015-08-07 21:04:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 8 个回答

devinhu

木虫 (小有名气)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
xiaoxuan1111: 金币+10, ★★★很有帮助, 非常感谢,还是有点问题 2015-08-07 22:04:59
xiaoxuan1111: 金币+40, ★★★很有帮助, 非常感谢,搞了一上午,问题解决了 2015-08-08 12:36:29
#!/bin/bash
#PBS -N test1
#PBS -r n
#PBS -j oe
#PBS -l walltime=72:00:00
#PBS -l nodes=4:ppn=8
#PBS -q normal

project_name=CO_1    # change name here!!!
EXE=castepexe.exe



##########################################################
# The following should be no need to
#       change any of these settings for normal use.
##########################################################

# go to work dir
cd $PBS_O_WORKDIR
# setup mpd env (Of course use some other secret word than "dfadfs"
if [ ! -f ~/.mpd.conf ]; then
/bin/echo "secretword=dfadfs" >> ~/.mpd.conf
/bin/chmod 600 ~/.mpd.conf
fi
# setup Nums of Processor
NP=`cat $PBS_NODEFILE|wc -l`
echo "Numbers of Processors:  $NP"
echo "---------------------------"
echo `date`
cat $PBS_NODEFILE | uniq

# setup mpi env (em64t)
#export OMP_NUM_THREADS=1
#export P4_GLOBMEMSIZE=1073741824
export I_MPI_PIN_DOMAIN=auto
export MPD_CON_EXT=$PBS_JOBID

# setup accelrys env
source /data/apps/accelrys/ms60.sh

mpirun -r ssh -genv I_MPI_FABRICS shm:dapl -n $NP  $MS_INSTALL_ROOT/bin/$EXE $project_name
rm -f *.pid

echo `date` >> $HOME/finish
echo `pwd` >>  $HOME/finish

exit 0

其中ms60.sh内容是
#!/bin/bash
# Parallel Environment Setting for Materials Studio 6.0

export MS_INSTALL_ROOT=/data/apps/accelrys/MaterialsStudio6.0
export MSI_LIC_PACK_DIR=/data/apps/accelrys/LicensePack
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$MSI_LIC_PACK_DIR/linux/lib:$MS_INSTALL_ROOT/lib
export PATH=$PATH:$MS_INSTALL_ROOT/etc/CASTEP/bin/:$MS_INSTALL_ROOT/etc/DMol3/bin/::$MS_INSTALL_ROOT/etc/GULP/bin

export Castep_DATA=$MS_INSTALL_ROOT/share/Resources/Quantum/Castep
export Castep_TMP=/tmp
export DMOL3_DATA=$MS_INSTALL_ROOT/share/Resources/Quantum/DMol3
export DMOL_TMP=/tmp
export TMPDIR=$Castep_TMP

. $MSI_LIC_PACK_DIR/etc/lp_profile
eval `$MS_INSTALL_ROOT/share/license/data/lic_setup.sh $MS_INSTALL_ROOT -s sh`

注,我们的计算节点是通过IB网通信的,如果不是则直接mpirun -np $NP

你可以直接source /home/lgx2015/Accelrys/MaterialsStudio7.0/etc/CASTEP/etc/lp_profile
mpirun /home/lgx2015/Accelrys/MaterialsStudio7.0/etc/CASTEP/bin/castepexe.exe   Cs2NaYF6 试试
2楼2015-08-07 21:03:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

devinhu

木虫 (小有名气)

引用回帖:
2楼: Originally posted by devinhu at 2015-08-07 21:03:50
#!/bin/bash
#PBS -N test1
#PBS -r n
#PBS -j oe
#PBS -l walltime=72:00:00
#PBS -l nodes=4:ppn=8
#PBS -q normal

project_name=CO_1    # change name here!!!
EXE=castepexe.exe



####### ...

mpirun 后面少了 -np 8
如果显示没有mpirun 那么换成绝对路径/home/lgx2015/Accelrys/MaterialsStudio7.0/etc/CASTEP/bin/mpirun
另外,如果是直接用torque脚本的话conf等那些东西是不需要动就可以的
4楼2015-08-07 21:10:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaoxuan1111

铁杆木虫 (正式写手)

引用回帖:
2楼: Originally posted by devinhu at 2015-08-07 21:03:50
#!/bin/bash
#PBS -N test1
#PBS -r n
#PBS -j oe
#PBS -l walltime=72:00:00
#PBS -l nodes=4:ppn=8
#PBS -q normal

project_name=CO_1    # change name here!!!
EXE=castepexe.exe



####### ...

谢谢你,但还是有问题。
你给的这个
source/home/lgx2015/Accelrys/MaterialsStudio7.0/etc/CASTEP/etc/lp_profile
mpirun/home/lgx2015/Accelrys/MaterialsStudio7.0/etc/CASTEP/bin/castepexe.exe   Cs2NaYF6
一些路径有点儿错误,我找到了我所安装的软件的lp_profile、mpirun和castepexe.exe分别所在的位置,改过来后还是不能多CPU运行
其实我很怀疑是我软件安装后的设置有问题,我把/home/lgx2015/Accelrys/MaterialsStudio7.0/share/data下的machines.LINUX中的node1改成我的登陆节点名的话,是可以多CPU运行的,但集群管理员说这样做就指定了节点,是被禁止的,集群要自动分配节点,让我找一下软件的设置问题。
就是说,我不指定节点而由集群自动分配节点的话,只能单CPU运行,指定节点倒是可以多CPU运行,但会被管理员禁止。
你给我的这个pbs脚本好长啊,我试试我可不可以用……
你想要什么,如何得到想要的,现在应该怎么做?
5楼2015-08-07 22:20:40
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见