24小时热门版块排行榜    

CyRhmU.jpeg
查看: 3129  |  回复: 5

04nylxb

木虫 (正式写手)

[求助] vasp跨节点运行出错,mpiexec_node-1 (handle_stdin_input 1089)

最近在集群上编译带CNEB的vasp5.2,并行vasp编译成功,在单个节点(每个节点八核)上运行
$ mpirun -np 8 vasp
时候,top下,发现确实出现八个vasp进程。
但是,跨节点的时候,确出错了,出错信息如下:
running on   15 nodes
distr:  one band on    1 nodes,   15 groups
vasp.5.2.12 11Nov11 complex                                                   
  
POSCAR found :  1 types and       2 ions

-----------------------------------------------------------------------------
|                                                                             |
|           W    W    AA    RRRRR   N    N  II  N    N   GGGG   !!!           |
|           W    W   A  A   R    R  NN   N  II  NN   N  G    G  !!!           |
|           W    W  A    A  R    R  N N  N  II  N N  N  G       !!!           |
|           W WW W  AAAAAA  RRRRR   N  N N  II  N  N N  G  GGG   !            |
|           WW  WW  A    A  R   R   N   NN  II  N   NN  G    G                |
|           W    W  A    A  R    R  N    N  II  N    N   GGGG   !!!           |
|                                                                             |
|      For optimal performance we recommend that you set                      |
|        NPAR = approx SQRT( number of cores)                                 |
|      This will greatly improve the performance of VASP for DFT.             |
|      The default NPAR=number of cores might be grossly inefficient          |
|      on modern multi-core architectures or massively parallel machines.     |
|      Unfortunately you need to use the default for hybrid, GW and RPA       |
|      calculations.                                                          |
|                                                                             |
-----------------------------------------------------------------------------

LDA part: xc-table for Pade appr. of Perdew
found WAVECAR, reading the header
  number of bands has changed, file:    12 present:    15
  trying to continue reading WAVECAR, but it might fail
POSCAR, INCAR and KPOINTS ok, starting setup
WARNING: small aliasing (wrap around) errors must be expected
FFT: planning ...(           1 )
reading WAVECAR
random initialization beyond band           13
the WAVECAR file was read sucessfully
initial charge from wavefunction
entering main loop
       N       E                     dE             d eps       ncg     rms          rms(c)
mpiexec_node-1 (handle_stdin_input 1089): stdin problem; if pgm is run in background, redirect from /dev/null
mpiexec_node-1 (handle_stdin_input 1090):     e.g.: mpiexec -n 4 a.out < /dev/null &
rank 14 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 14: killed by signal 11
rank 13 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 13: killed by signal 9
rank 9 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 9: killed by signal 11
rank 8 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 8: killed by signal 11
rank 4 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 4: killed by signal 11
rank 3 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 3: killed by signal 9
rank 2 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 2: killed by signal 9
rank 1 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 1: killed by signal 11
rank 0 in job 14  node-1_49061   caused collective abort of all ranks

其中node-1是我的控制节点。进程数为12以下的时候都运行正常
$ mpirun -machinefile ~/machinefile -np 12 vasp > 5out
其中,mpich2,我用cpi测试,各个节点都OK的,并且能够跑上百个核。
求高人指点,为什么vasp跨节点的时候出现这样的错误?该如何解决?非常感谢啊。
另,想问下,编译的时候,make makeparam,生成的这个makeparam是干嘛用的?
回复此楼
集中精力发文章
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

期待高人解答……
困扰我几天了,总是出现这个问题,导致后面的计算无法进行下去
集中精力发文章
2楼2012-01-08 23:34:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

liliangfang

荣誉版主 (著名写手)

【答案】应助回帖


感谢参与,应助指数 +1
uuv2010(金币+1): 欢迎参加讨论 2012-01-09 10:04:06
04nylxb(金币+4): 有帮助 收到,非常感谢啊 2012-01-09 19:07:59
NPAR=你所用节点的核心数,还有可能是你并行不安装不成功
3楼2012-01-09 08:38:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

uuv2010

荣誉版主 (职业作家)

优秀版主

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
franch(金币+2): 谢谢回帖交流 2012-01-09 12:10:09
04nylxb(金币+4): 有帮助 收到,非常感谢啊 2012-01-09 19:08:42
NPAR = approx SQRT( number of cores)  应该是NPAR近似等于并行核数的开方,这个是从5.2.12的光棍节版本开始的警告,
其他的报错可能是并行没有安装好的原因所致
4楼2012-01-09 10:07:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

★ ★
franch(金币+2): 鼓励交流,,呵呵 2012-01-09 20:12:34
引用回帖:
4楼: Originally posted by uuv2010 at 2012-01-09 10:07:28:
NPAR = approx SQRT( number of cores)  应该是NPAR近似等于并行核数的开方,这个是从5.2.12的光棍节版本开始的警告,
其他的报错可能是并行没有安装好的原因所致

非常感谢。
嗯,NPAR我都设成了并行的核数了,感觉这个节点数无法估计啊,有时候任务调度系统分配给4个节点,有时候分配给10个节点。是否不需要严格的节点数?按照它说的近似corse的开方即可?

mpi方面,我用的是mpich2,我用Mpi自带的examples下面的cpi测试,发现并行都是顺利完成,指定几个节点,输出里面会有相应的节点运行报告,是否可以说mpi安装是好的?

我昨天测试运行的时候还发现一个问题,有时候去提交任务,-np 64之类的,任务正常,各个节点都会分配vasp任务,然后过了一两个小时之后,再次运行同样的任务,vasp又出现上面的错误了,汗,郁闷啊。
集中精力发文章
5楼2012-01-09 19:14:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

uuv2010

荣誉版主 (职业作家)

优秀版主

【答案】应助回帖


WDD880227(金币+1): 感谢交流~~ 2012-01-09 23:44:05
内容已删除
6楼2012-01-09 22:21:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 04nylxb 的主题更新
信息提示
请填处理意见