24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1627  |  回复: 5
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

沐心精灵

木虫 (正式写手)

[求助] 求助:Rocks 6.1集群搭建不能跨节点并行已有2人参与

有没有大神知道用Rocks 6.1搭建集群时不能跨节点并行的原因啊?
集群由4台服务器组成,其中一个为前端节点,剩下的为计算节点。安装按照Rocks 6.1手册,并结合网上的一些教程,镜像全部为Rocks官方的。安装完前端节点和计算节点后,在、share/apps目录下安装了OpenMP(不用自带的)和intel Fortran,并设置环境变量等,同步到计算节点,并source环境变量。
按照上面的安装,CFD程序(自己的,包括CFL3D)可以编译,由SGE可提交至计算节点正常并行计算。但是问题是,当并行线程数超过某个计算节点的总线程数时,qstat给的结果是分配到两台节点上,但是到分配的节点top时发现,其实只在一个节点上并行而已。
例如,用64个线程运行程序,用命令qsub -pe mpich 64 RUN_Script在前端节点提交,刚好分配到了两台计算节点(总线程数分别为24和40),如下所示:
[user01@cluster src]$ qstat -f
queuename                      qtype resv/used/tot. load_avg arch          states
---------------------------------------------------------------------------------
all.q@compute-0-15.local       BIP   0/40/40        0.00     linux-x64     
    129 0.55500 RUN_Script user01       r     02/14/2014 09:28:38    40        
---------------------------------------------------------------------------------
all.q@compute-0-4.local        BIP   0/24/24        0.07     linux-x64     
    129 0.55500 RUN_Script user01       r     02/14/2014 09:28:38    24
但是ssh到compute-0-15和compute-0-4上top看时,只有一个节点上有程序运行。我的任务脚本文件 RUN_Script内容如下:
#!/bin/bash
#
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
mpirun -machinefile $TMPDIR/machines -np $NSLOTS \
/home/user01/AxisJet/src/JET
集群内的计算节点和前端节点可以无密码ssh登录。搞了几天,实在是不知道问题何在啊!求虫友们指点啊,问题能解决,再追加赏币啊!
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

沐心精灵

木虫 (正式写手)

引用回帖:
2楼: Originally posted by bluewhale at 2015-03-03 08:49:00
查看一下$TMPDIR/machines是否你希望的东西?
用which mpirun查看是用的哪一个mpirun?

$TMPDIR/machines是SGE定义的,这个文件似乎找不到。mpirun指向我自己安装的openmpi-1.4.5版本的。现在是普通方法(不通过SGE)是可以跨机计算了,但是用qsub只能提交到一台机子上(实际运行),但是qstat -f的结果还是分配多个节点。
3楼2015-03-03 12:01:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 6 个回答

bluewhale

铁杆木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
查看一下$TMPDIR/machines是否你希望的东西?
用which mpirun查看是用的哪一个mpirun?
2楼2015-03-03 08:49:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bluewhale

铁杆木虫 (正式写手)

引用回帖:
3楼: Originally posted by 沐心精灵 at 2015-03-03 12:01:25
$TMPDIR/machines是SGE定义的,这个文件似乎找不到。mpirun指向我自己安装的openmpi-1.4.5版本的。现在是普通方法(不通过SGE)是可以跨机计算了,但是用qsub只能提交到一台机子上(实际运行),但是qstat -f的结果 ...

qstat -n查看节点信息。
4楼2015-03-03 15:26:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

kka

金虫 (初入文坛)

【答案】应助回帖

查看下SGE配置的文件,看看用户组允许使用的节点
5楼2015-10-26 14:05:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见