24小时热门版块排行榜    

CyRhmU.jpeg
南方科技大学公共卫生及应急管理学院2025级博士研究生招生报考通知
查看: 1387  |  回复: 7

lightgjx

木虫 (正式写手)

[求助] vasp 集群并行出错

我的集群编译共两台机子,其中一台为主服务器(主机名:node1),另外一台作为客户端(node2),在并行编译过程中按照网上的编译方法都已经成功,包括机子之间访问无障碍,安装mpich2,启动mpd(单机+多机都成功),实现了服务器/home共享,在客户机挂载/home都没有问题,但一旦开始运行遇到两个问题:
1、用mpirun -np 4 ./cpi  命令的时候出现以下错误:
MPIR_Init_thread(188): Initialization failed
MPID_Init(118): channel initialization failed
MPIDI_CH3_Init(402): process not on the same host (node2 != node1)
rank 1 in job 1  scc-m_37184   caused collective abort of all ranks
  exit status of rank 1: return code 13
2、用mpiexec -machinefile  machinefile -n 4 ./cpi 出现以下错误:
invalid mpiexec argument -machinefile
Usage: mpiexec -n -soft -host \
               -wdir -path \
               -file -configfile execname \
               [ : -n ... execname ]
这里为什么-machinefile参数不存在呀????,另外使用-host参数的时候和没有用没什么区别。

还请高手指教那里出了问题。谢谢大家。困扰了很长时间了。谢谢大家。

[ Last edited by lightgjx on 2012-7-8 at 07:30 ]
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

snail594

金虫 (小有名气)

【答案】应助回帖


感谢参与,应助指数 +1
xueht987: 金币+1, 多谢指教,鼓励交流! 2012-07-08 15:37:38
mpich2的参数应该是-f或者-file,你试试看,你这个是open-mpi的参数
Inlearningwetrust
2楼2012-07-08 10:25:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lightgjx

木虫 (正式写手)

引用回帖:
2楼: Originally posted by snail594 at 2012-07-08 10:25:29
mpich2的参数应该是-f或者-file,你试试看,你这个是open-mpi的参数

还是不行:错误如下:
[nis@scc-m ~]$  mpiexec -f machinefile  -np 4 /home/nis/mpich20/examples/cpi
invalid mpiexec argument -f
Usage: mpiexec -n -soft -host \
               -wdir -path \
               -file -configfile execname \
               [ : -n ... execname ]

[nis@scc-m ~]$  mpiexec -file machinefile  -np 4 /home/nis/mpich20/examples/cpi
invalid mpiexec argument -file
Usage: mpiexec -n -soft -host \
               -wdir -path \
               -file -configfile execname \
               [ : -n ... execname ]
3楼2012-07-08 11:26:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
用mpiexec的时候,要建立一个hydronodes的file,而不是machinefile,同时用把这个文件加到环境变量里面去。
集中精力发文章
4楼2012-07-08 20:46:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lightgjx

木虫 (正式写手)

引用回帖:
4楼: Originally posted by 04nylxb at 2012-07-08 20:46:31
用mpiexec的时候,要建立一个hydronodes的file,而不是machinefile,同时用把这个文件加到环境变量里面去。

加入环境变量的具体操作是怎么样的。我怎么还是实现不了呀。另外,请问你知道我的第一个错误时怎么回事吗。
5楼2012-07-08 22:03:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

【答案】应助回帖

引用回帖:
5楼: Originally posted by lightgjx at 2012-07-08 22:03:18
加入环境变量的具体操作是怎么样的。我怎么还是实现不了呀。另外,请问你知道我的第一个错误时怎么回事吗。...

hydranodes,环境变量如何操作请google
第一个问题感觉是你mpi没有装好,你先用它自带的example试下,看看所有节点是否都跑通,mpi正常后,再调试vasp
集中精力发文章
6楼2012-07-09 09:20:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lightgjx

木虫 (正式写手)

引用回帖:
6楼: Originally posted by 04nylxb at 2012-07-09 09:20:01
hydranodes,环境变量如何操作请google
第一个问题感觉是你mpi没有装好,你先用它自带的example试下,看看所有节点是否都跑通,mpi正常后,再调试vasp...

谢谢你的回复。所有节点都能独立运行。就是不能一起工作。本身测试的时候就是用的example里面的例子。弄不明白
7楼2012-07-09 12:11:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lightgjx

木虫 (正式写手)

经过艰苦的努力,终于弄明白了,原来我./configure  的时候加入了过多的参数设置。我用的是别人的东西,自己没有真正弄懂,后来看了mpich的说明才知道参量多加了没什么好处。多加的参量为:--with-device=ch3:shm --enable-threads=funneled  --with-pm=mpd:gforker。虽然找到了原因,但这些参量究竟能起到什么作用我还是没有全部弄明白。主要是调好了,就没有心思去弄明白了。呵呵呵。
8楼2012-07-12 08:21:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 lightgjx 的主题更新
信息提示
请填处理意见