24小时热门版块排行榜    

北京石油化工学院2026年研究生招生接收调剂公告
查看: 1741  |  回复: 5

沐心精灵

木虫 (正式写手)

[求助] 求助:Rocks 6.1集群搭建不能跨节点并行 已有2人参与

有没有大神知道用Rocks 6.1搭建集群时不能跨节点并行的原因啊?
集群由4台服务器组成,其中一个为前端节点,剩下的为计算节点。安装按照Rocks 6.1手册,并结合网上的一些教程,镜像全部为Rocks官方的。安装完前端节点和计算节点后,在、share/apps目录下安装了OpenMP(不用自带的)和intel Fortran,并设置环境变量等,同步到计算节点,并source环境变量。
按照上面的安装,CFD程序(自己的,包括CFL3D)可以编译,由SGE可提交至计算节点正常并行计算。但是问题是,当并行线程数超过某个计算节点的总线程数时,qstat给的结果是分配到两台节点上,但是到分配的节点top时发现,其实只在一个节点上并行而已。
例如,用64个线程运行程序,用命令qsub -pe mpich 64 RUN_Script在前端节点提交,刚好分配到了两台计算节点(总线程数分别为24和40),如下所示:
[user01@cluster src]$ qstat -f
queuename                      qtype resv/used/tot. load_avg arch          states
---------------------------------------------------------------------------------
all.q@compute-0-15.local       BIP   0/40/40        0.00     linux-x64     
    129 0.55500 RUN_Script user01       r     02/14/2014 09:28:38    40        
---------------------------------------------------------------------------------
all.q@compute-0-4.local        BIP   0/24/24        0.07     linux-x64     
    129 0.55500 RUN_Script user01       r     02/14/2014 09:28:38    24
但是ssh到compute-0-15和compute-0-4上top看时,只有一个节点上有程序运行。我的任务脚本文件 RUN_Script内容如下:
#!/bin/bash
#
#$ -cwd
#$ -j y
#$ -S /bin/bash
#
mpirun -machinefile $TMPDIR/machines -np $NSLOTS \
/home/user01/AxisJet/src/JET
集群内的计算节点和前端节点可以无密码ssh登录。搞了几天,实在是不知道问题何在啊!求虫友们指点啊,问题能解决,再追加赏币啊!
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bluewhale

铁杆木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
查看一下$TMPDIR/machines是否你希望的东西?
用which mpirun查看是用的哪一个mpirun?
2楼2015-03-03 08:49:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

沐心精灵

木虫 (正式写手)

引用回帖:
2楼: Originally posted by bluewhale at 2015-03-03 08:49:00
查看一下$TMPDIR/machines是否你希望的东西?
用which mpirun查看是用的哪一个mpirun?

$TMPDIR/machines是SGE定义的,这个文件似乎找不到。mpirun指向我自己安装的openmpi-1.4.5版本的。现在是普通方法(不通过SGE)是可以跨机计算了,但是用qsub只能提交到一台机子上(实际运行),但是qstat -f的结果还是分配多个节点。
3楼2015-03-03 12:01:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bluewhale

铁杆木虫 (正式写手)

引用回帖:
3楼: Originally posted by 沐心精灵 at 2015-03-03 12:01:25
$TMPDIR/machines是SGE定义的,这个文件似乎找不到。mpirun指向我自己安装的openmpi-1.4.5版本的。现在是普通方法(不通过SGE)是可以跨机计算了,但是用qsub只能提交到一台机子上(实际运行),但是qstat -f的结果 ...

qstat -n查看节点信息。
4楼2015-03-03 15:26:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

kka

金虫 (初入文坛)

【答案】应助回帖

查看下SGE配置的文件,看看用户组允许使用的节点
5楼2015-10-26 14:05:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

狻猊-狴犴

新虫 (初入文坛)

我也遇到同样的问题了。请问您最后解决这个问题了吗?谢谢您~期待您的回复
6楼2018-07-07 19:15:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 沐心精灵 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 327求调剂 +5 Xxjc1107. 2026-04-06 5/250 2026-04-06 21:43 by dongzh2009
[考研] 085600材料与化工301分求调剂院校 +16 刺痛jk 2026-04-06 17/850 2026-04-06 19:47 by 电池阿白
[考研] 265求调剂 +8 小木虫085600 2026-04-06 8/400 2026-04-06 17:20 by swb0218
[考研] 求调剂 +11 xzghyuj 2026-04-04 11/550 2026-04-06 11:49 by lijunpoly
[考研] 化学调剂求助 +8 LULONG1 2026-04-03 8/400 2026-04-06 10:26 by dongzh2009
[考研] 化学0703-一志愿211-338分求调剂 +8 vants 2026-04-05 8/400 2026-04-06 06:17 by houyaoxu
[考研] 一志愿郑州大学085600求调剂 +17 吃的不少 2026-04-05 20/1000 2026-04-06 00:32 by T可可西里T
[考研] 材料0856 英一数二 323 求调剂 +14 袁sy 2026-04-01 14/700 2026-04-05 18:18 by cql1109
[考研] 270求调剂 +9 小杰pp 2026-03-31 11/550 2026-04-05 11:02 by 风雨无晴
[考研] 311分 22408 求调剂 +3 bing_bot 2026-04-03 3/150 2026-04-05 00:43 by chongya
[考研] 278求调剂 +14 范婷娜 2026-04-04 15/750 2026-04-04 22:15 by lqwchd
[考研] 材料专硕306英一数二 +8 z1z2z3879 2026-03-31 8/400 2026-04-04 22:08 by hemengdong
[考研] 282求调剂 +20 ycy1201 2026-04-01 22/1100 2026-04-04 00:42 by userper
[考研] 本科985,专业0812分336求调剂 +4 莫莫很行 2026-04-03 4/200 2026-04-03 21:31 by zhq0425
[考研] 303求调剂 +3 一色清羽 2026-04-02 4/200 2026-04-03 10:22 by 蓝云思雨
[考研] 285求调剂 +8 AZMK 2026-04-02 11/550 2026-04-02 20:16 by yulian1987
[考研] 学硕化学工程与技术,一志愿中国海洋大学320+求调剂 +8 披星河 2026-04-02 8/400 2026-04-02 14:12 by oooqiao
[考研] 土木304求调剂 +6 兔突突突, 2026-03-31 7/350 2026-04-02 09:06 by coolminer
[考研] 化学工程专硕324分,一志愿中国矿业大学求调剂 +7 耿耿1314 2026-04-01 7/350 2026-04-02 07:40 by 尚水阁主
[考研] 求调剂0703 +5 周嘉尧 2026-03-31 8/400 2026-04-01 20:32 by ltltkkk
信息提示
请填处理意见