24小时热门版块排行榜    

CyRhmU.jpeg
查看: 7869  |  回复: 32

sxjsn1

金虫 (小有名气)


[交流] 【求助】mpi vasp问题

我用openmpi在一台机子上装好vasp了 能并行运行 在我机子上用同样的方法却运行出错
[laoshan.daoren:30001] *** An error occurred in MPI_Comm_rank
[laoshan.daoren:30001] *** on communicator MPI_COMM_WORLD
[laoshan.daoren:30001] *** MPI_ERR_COMM: invalid communicator
[laoshan.daoren:30001] *** MPI_ERRORS_ARE_FATAL (your MPI job will now abort)
mpirun has exited due to process rank 0 with PID 30001 on
node laoshan.daoren exiting without calling "finalize". This may
have caused other processes in the application to be
terminated by signals sent by mpirun (as reported here).
--------------------------------------------------------------------------
[laoshan.daoren:30000] 1 more process has sent help message help-mpi-errors.txt / mpi_errors_are_fatal
[laoshan.daoren:30000] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
何解阿? 急盼高人解答

[ Last edited by zzy870720z on 2010-12-8 at 22:28 ]
回复此楼

» 本帖已获得的红花(最新10朵)

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

» 抢金币啦!回帖就可以得到:

查看全部散金贴

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )
★ ★
zhang668(金币+2):多谢指教! 2010-12-23 18:50:21
sxjsn1(金币+3): 2010-12-24 09:41:55
引用回帖:
Originally posted by sxjsn1 at 2010-12-07 18:43:28:
补充一下 编译完vasp后 出现这个警告 是不是与这个有关
/opt/intel/Compiler/11.1/073/lib/intel64/libimf.so: warning: warning: feupdateenv is not implemented and will always fail

你前面的问题与此信息无关。解决此问题:
还需要知道你是怎么并行提交你的作业的。另外你还可能需要先测试你的openmpi,看它能否正常并行运行自带的pi。还有你当前提交的作业是计算多大的体系,有可能体系过大,内存不足,那测试一个简单的小体系,看是否还存在同样的问题。
17楼2010-12-23 18:31:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

刘仕晨

木虫 (正式写手)



小木虫: 金币+0.5, 给个红包,谢谢回帖
试试看which mpd ,有没有路径,如果有,继续which mpich2,如何也有,OK,如果没有请安装,一般这两个在Intel的编译器的那个文件夹下面,那么试试看这个指令,mpiexec -n N(CPU数) vasp
31楼2013-03-17 20:25:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

sxjsn1

金虫 (小有名气)


补充一下 编译完vasp后 出现这个警告 是不是与这个有关
/opt/intel/Compiler/11.1/073/lib/intel64/libimf.so: warning: warning: feupdateenv is not implemented and will always fail
2楼2010-12-07 18:43:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


怎么没人回答问题呢?囧!~~~~~
3楼2010-12-08 16:18:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


自己顶一下:dnd:
4楼2010-12-08 16:48:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1(金币+3): 2010-12-08 22:18:10
zzy870720z(金币+1):谢谢提示 2010-12-08 22:28:28
ben_ladeng(专家考核): 2012-02-08 13:09:54
主题选错了,你宣称pwscf了。而你问的是vasp的问题。
貌似你的提示是某个动态库出了问题。
5楼2010-12-08 21:44:40
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by goldenfisher at 2010-12-08 21:44:40:
主题选错了,你宣称pwscf了。而你问的是vasp的问题。
貌似你的提示是某个动态库出了问题。

是吗? 我没注意主题
动态库? 我以前编译没出问题啊 而且我的Makefile基本和我们工作站上的一样
6楼2010-12-08 22:19:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


呃 继续期待中
7楼2010-12-09 10:41:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zsjan

金虫 (正式写手)



sunyang1988(金币+1):谢谢交流 2010-12-09 15:22:05
warning: warning: feupdateenv is not implemented and will always fail这个没关系的,我的就有这个但是没有问题。
8楼2010-12-09 15:15:27
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lovemoon

铜虫 (小有名气)


★ ★
sunyang1988(金币+2):谢谢交流 2010-12-09 15:40:39
sxjsn1(金币+1): 2010-12-09 17:51:47
引用回帖:
Originally posted by sxjsn1 at 2010-12-09 10:41:48:
呃 继续期待中

解决的方法就是把系统的math libaries 加入 -limf -lm
我在安装PWscf的时候遇到同样问题
解决方法
BLAS_LIBS      = -limf -lm -L/opt/intel/mkl/10.2.6.038/lib/em64t -lmkl_em64t_not
hread
9楼2010-12-09 15:33:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by lovemoon at 2010-12-09 15:33:50:

解决的方法就是把系统的math libaries 加入 -limf -lm
我在安装PWscf的时候遇到同样问题
解决方法
BLAS_LIBS      = -limf -lm -L/opt/intel/mkl/10.2.6.038/lib/em64t -lmkl_em64t_not
hread

虽然没效果 但还是谢谢你了
10楼2010-12-09 17:52:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

erghper

铜虫 (小有名气)



ellsaking(金币+1):给个金币,欢迎常来第一性原理版块~ 2010-12-21 11:11:06
你是64位的机子吗
11楼2010-12-09 18:26:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by erghper at 2010-12-09 18:26:58:
你是64位的机子吗

是啊 em64的
12楼2010-12-09 22:07:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


是不是因为我的openmpi安装出错了呢?
13楼2010-12-13 16:36:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
★ ★
zhang668(金币+2):多谢回帖交流 2010-12-13 22:06:06
这种错误最好是从编译的log里面看看有没有出错,然后看看openmpi的编译是否出错。
VASP的makefile很难不修改就能直接编译的,因为每个机子的文件放置不同安装软件不同cpu不同
14楼2010-12-13 21:04:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by bingmou at 2010-12-13 21:04:20:
这种错误最好是从编译的log里面看看有没有出错,然后看看openmpi的编译是否出错。
VASP的makefile很难不修改就能直接编译的,因为每个机子的文件放置不同安装软件不同cpu不同

呃 我编译了好多vasp了 我的机子 我们工作站上的 我师姐电脑上的 所以我确信vasp应该没错 应该是openmpi错了 郁闷啊 我在我师姐和我们工作站上面的openmpi都直接成功的
15楼2010-12-13 21:39:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


悲剧阿 谁能告诉我到底哪出错了阿
16楼2010-12-21 10:46:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by valenhou001 at 2010-12-23 18:31:21:

你前面的问题与此信息无关。解决此问题:
还需要知道你是怎么并行提交你的作业的。另外你还可能需要先测试你的openmpi,看它能否正常并行运行自带的pi。还有你当前提交的作业是计算多大的体系,有可能体系过大 ...

我的机子是core2双核的 提交任务是mpirun -np 2 vasp    装上openmpi后怎么测试啊 输入哪个指令 应该不是体系的问题 我算的是最简单的例子
18楼2010-12-24 09:21:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

phys

木虫 (正式写手)


mpirun之前需要运行什么命令来的?忘了,谁知道
19楼2010-12-24 09:30:22
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by valenhou001 at 2010-12-23 18:31:21:

你前面的问题与此信息无关。解决此问题:
还需要知道你是怎么并行提交你的作业的。另外你还可能需要先测试你的openmpi,看它能否正常并行运行自带的pi。还有你当前提交的作业是计算多大的体系,有可能体系过大 ...

我进入/openmpi-1.3.2/examples
输入mpirun -np 2 hello_c.c
出现下面提示
mpirun was unable to launch the specified application as it could not find an executable:

Executable: hello_c.c
Node: laoshan.daoren

while attempting to start process rank 0.
在examples文件夹里有hello_c.c啊
20楼2010-12-24 09:41:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by phys at 2010-12-24 09:30:22:
mpirun之前需要运行什么命令来的?忘了,谁知道

你说的是不是mpd?
21楼2010-12-24 09:42:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
★ ★
zzy870720z(金币+2):谢谢指教 2010-12-24 14:13:24
sxjsn1(金币+2):好的 我先认真看看吧。。。 2010-12-24 16:14:58
ben_ladeng(专家考核): 2012-02-08 13:10:26
你可能对mpi的基本使用欠缺。

"mpirun -np 2 hello_c.c"这个是不能的。hello_c.c是源代码。mpirun只能启动的是可执行文件。因此你得先mpicc 编译hello_c.c得到它的可执行文件。

有关openmpi的基本使用方法,可参考:
http://blog.chinaunix.net/u2/60913/showart_1134515.html
http://www.huanglab.org.cn/node53.html
22楼2010-12-24 13:12:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzy870720z(金币+1):谢谢指点 2010-12-24 14:13:33
引用回帖:
Originally posted by sxjsn1 at 2010-12-24 09:42:25:

你说的是不是mpd?

openmpi不需要。mpich2需要先运行mpd。
23楼2010-12-24 13:14:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by valenhou001 at 2010-12-24 13:14:21:

openmpi不需要。mpich2需要先运行mpd。

[root@laoshan examples]# mpirun -np 2 hello_c
Hello, world, I am 0 of 2
Hello, world, I am 1 of 2
这样的话我的openmpi是不是编译成功了呢?
24楼2010-12-25 10:43:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1(金币+5): 2010-12-25 19:49:43
sunyang1988(金币+1):谢谢交流 2010-12-25 19:58:47
ben_ladeng(专家考核): 2012-02-08 13:10:42
是的,成功了。
25楼2010-12-25 11:51:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sxjsn1

金虫 (小有名气)


引用回帖:
Originally posted by valenhou001 at 2010-12-25 11:51:58:
是的,成功了。

我今天把Makefile文件改成串行的编译成功就能运行 改成并行的就不行 啥问题啊  愁了 mpi也没问题啊
26楼2010-12-25 19:51:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

shelay

木虫 (正式写手)



小木虫(金币+0.5):给个红包,谢谢回帖
引用回帖:
25楼: Originally posted by valenhou001 at 2010-12-25 11:51:58:
是的,成功了。

root@localhost examples]#  mpirun -np 4  /root/Desktop/ziliao/openmpi-1.4.3/examples/hello_f90
librdmacm: couldn't read ABI version.
librdmacm: assuming: 4
CMA: unable to get RDMA device list
--------------------------------------------------------------------------
[[23253,1],0]: A high-performance Open MPI point-to-point messaging module
was unable to find any relevant network interfaces:

Module: OpenFabrics (openib)
  Host: localhost.localdomain

Another transport will be used instead, although this may result in
lower performance.
--------------------------------------------------------------------------
librdmacm: couldn't read ABI version.
librdmacm: couldn't read ABI version.
librdmacm: assuming: 4
CMA: unable to get RDMA device list
librdmacm: assuming: 4
CMA: unable to get RDMA device list
librdmacm: couldn't read ABI version.
librdmacm: assuming: 4
CMA: unable to get RDMA device list
Hello, world, I am            0  of            4
Hello, world, I am            2  of            4
Hello, world, I am            1  of            4
Hello, world, I am            3  of            4
[localhost.localdomain:21029] 3 more processes have sent help message help-mpi-btl-base.txt / btl:no-nics
[localhost.localdomain:21029] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
请问下我编译完后,测试出现上面的信息,安装成功了没啊?
27楼2012-02-08 12:19:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dxf_dxf_dxf

银虫 (小有名气)



小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
1953081楼: Originally posted by shelay at 2012-02-08 12:19:54:
root@localhost examples]#  mpirun -np 4  /root/Desktop/ziliao/openmpi-1.4.3/examples/hello_f90
librdmacm: couldn't read ABI version.
librdmacm: assuming: 4
CMA: unable to get RDMA device list
...

已经给出错误提示了:
“CMA: unable to get RDMA device list ”
这表示你的网络不是RDMA的。你可以换成ssm。如果你使用intel mpi,用这样一句话就可以了:
   mpirun -genv I_MPI_DEVICE ssm ...
不知道openmpi要怎么设置。当是抛砖引玉了
28楼2012-04-23 13:04:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dxf_dxf_dxf

银虫 (小有名气)



小木虫: 金币+0.5, 给个红包,谢谢回帖
试一下这个 mpirun --mca btl self,tcp -hostfile $PBS_NODEFILE ./vasp
如果你使用PBS交作业(qsub)
29楼2012-04-24 11:22:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

songhanjie

金虫 (初入文坛)



小木虫: 金币+0.5, 给个红包,谢谢回帖
同样的问题,请问你解决了吗?
30楼2013-03-17 14:53:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

tuxingchen

新虫 (初入文坛)



小木虫: 金币+0.5, 给个红包,谢谢回帖
前辈您好,请问您当时如何解决这个问题的呢?我现在也遇到了这个问题,十分感谢!
32楼2014-12-05 20:25:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
简单回复
lj29381533楼
2018-01-05 16:06   回复  
送红花一朵
3q
相关版块跳转 我要订阅楼主 sxjsn1 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见