24小时热门版块排行榜    

CyRhmU.jpeg
查看: 6927  |  回复: 25

fzuvivi

金虫 (小有名气)

引用回帖:
10楼: Originally posted by 04nylxb at 2012-10-28 15:51:23
汗,你先确定下深圳超算中心给了你们几个核。
12个核以内正常结束,超过12个核跨节点就出错,应该是你没有其它节点的访问权限。

感谢回复!
当时那个技术人员和我沟通的时候,给的是>32的核数权限。而且我用busers确定了我的max核数。
我也觉得应该是权限设置有问题,正在和他们的技术沟通中。。
11楼2012-10-29 09:46:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

iamikaruk

木虫 (著名写手)

★ ★
franch: 金币+2, 谢谢回帖交流, 2012-10-29 15:36:35
引用回帖:
8楼: Originally posted by fzuvivi at 2012-10-28 15:07:24
谢谢~
他们一个节点12CPU,有可能是因为你说的这个问题造成的。
不知道我的makefile是否有问题。...

你ssh gk0624那台主机可以不用输入密码就登陆么?
[img]http://osu.ppy.sh/stat2/iamikaruk-0.png[/img]
12楼2012-10-29 12:22:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fzuvivi

金虫 (小有名气)

引用回帖:
12楼: Originally posted by iamikaruk at 2012-10-29 12:22:01
你ssh gk0624那台主机可以不用输入密码就登陆么?...

谢谢回复!但这个操作在他们中心是不允许的。也登不上去。

还有,你回复时要选应助,不然我没办法给你金币。呵呵!
13楼2012-10-30 08:41:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ifmc1234

木虫 (著名写手)

【答案】应助回帖


fzuvivi: 金币+1, 有帮助 2012-10-30 16:35:36
引用回帖:
11楼: Originally posted by fzuvivi at 2012-10-29 09:46:49
感谢回复!
当时那个技术人员和我沟通的时候,给的是>32的核数权限。而且我用busers确定了我的max核数。
我也觉得应该是权限设置有问题,正在和他们的技术沟通中。。...

给的最大核数并不代表是一个任务的最大使用数。比如给你36个核,你可以通3个12核的。而如果同一个36核的,这就要看是否是跨节点了。对于跨节点需要几个不同的节点同时能对输入文件进行读写操作,而有些设置并不符合要求哦。
14楼2012-10-30 11:03:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

iamikaruk

木虫 (著名写手)

引用回帖:
13楼: Originally posted by fzuvivi at 2012-10-30 08:41:15
谢谢回复!但这个操作在他们中心是不允许的。也登不上去。

还有,你回复时要选应助,不然我没办法给你金币。呵呵!...

没事,不用应助的
[img]http://osu.ppy.sh/stat2/iamikaruk-0.png[/img]
15楼2012-10-30 11:46:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fzuvivi

金虫 (小有名气)

fzuvivi: 回帖置顶 2012-10-30 16:41:18
谢谢各位~问题已经找出来了。应该是vasp在并行运行时的一个bug。
可参考网址:http://www.hpc.cam.ac.uk/user/faq.html
16楼2012-10-30 16:41:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wuy069

铁杆木虫 (正式写手)

【答案】应助回帖

★ ★
fzuvivi: 金币+2 2012-11-01 10:51:35
引用回帖:
16楼: Originally posted by fzuvivi at 2012-10-30 16:41:09
谢谢各位~问题已经找出来了。应该是vasp在并行运行时的一个bug。
可参考网址:http://www.hpc.cam.ac.uk/user/faq.html

vasp跨节点运行是没问题的,我测试过24核,36核计算都没问题。我觉得可能是你LSF脚本跨节点并行没写好,我没咋用过LSF,在Torque里#PBS -l nodes=2:ppn=12;而且你任务所在目录应该是NFS共享的,当然也得保证节点间ssh无密码登录。
17楼2012-10-30 20:06:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fzuvivi

金虫 (小有名气)

引用回帖:
17楼: Originally posted by wuy069 at 2012-10-30 20:06:46
vasp跨节点运行是没问题的,我测试过24核,36核计算都没问题。我觉得可能是你LSF脚本跨节点并行没写好,我没咋用过LSF,在Torque里#PBS -l nodes=2:ppn=12;而且你任务所在目录应该是NFS共享的,当然也得保证节点间 ...

谢谢回复。不知道你是不是也是用深圳超算中心的。他们没有PBS的提交系统,只有LSF的调度系统。不妨晒晒你的并行提交脚本,供大家参考!ssh无密码登录这是没有问题的。
18楼2012-11-01 10:51:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wuy069

铁杆木虫 (正式写手)

用的我们自己的机器;有买机时那个钱还不如自己买机器,当然对于我们自己来说,如果没有管理经验,买机时也不错。
PBS脚本,跨节点并行,使用nfs共享磁盘,使用infiniband网络,没有ib网络自动fallback到tcp网络
#!/bin/bash
#PBS -S /bin/bash
#PBS -r n
#PBS -l nodes=3:ppn=12
#PBS -l walltime=2400:00:00
#PBS -j oe
#PBS -V

# go to work dir
cd $PBS_O_WORKDIR

module load intel/impi/4.0.3.008

# The program we want to execute
EXEC=/share/apps/vasp/bin/vasp5.2.12.sse42

# Intel MPI Home
MPI_HOME=/opt/intel/impi/4.0.3.008

# setup Nums of Processor
NP=`cat $PBS_NODEFILE|wc -l`
echo "Numbers of Processors:  $NP"
echo "---------------------------"

echo "Starting VASP run at" `date`

# running program
$MPI_HOME/bin64/mpiexec.hydra -genv I_MPI_DEBUG 3 -genv I_MPI_FABRICS shm:dapl -genv I_MPI_FABRICS_LIST dapl,tcp -genv I_MPI_FALLBACK enable -n $NP $EXEC > $PBS_O_WORKDIR/run.log

echo "VASP job finshed at" `date`
19楼2012-11-01 11:12:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fzuvivi

金虫 (小有名气)

引用回帖:
19楼: Originally posted by wuy069 at 2012-11-01 11:12:59
用的我们自己的机器;有买机时那个钱还不如自己买机器,当然对于我们自己来说,如果没有管理经验,买机时也不错。
PBS脚本,跨节点并行,使用nfs共享磁盘,使用infiniband网络,没有ib网络自动fallback到tcp网络
...

非常感谢你的分享!其实我们有自己的机子,只是不够用而已。。呵呵!
其实,我比较感兴趣的是你脚本里的“module load intel/impi/4.0.3.008”这句话。这个是用什么第三方程序来管理你要用到的编译环境?我知道的是有些超算中心也有类似这样的环境管理。这样,可以满足不同任务对不同环境的需求。
20楼2012-11-01 18:14:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 fzuvivi 的主题更新
信息提示
请填处理意见