24小时热门版块排行榜    

CyRhmU.jpeg
查看: 3151  |  回复: 5
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

04nylxb

木虫 (正式写手)

[求助] vasp跨节点运行出错,mpiexec_node-1 (handle_stdin_input 1089)

最近在集群上编译带CNEB的vasp5.2,并行vasp编译成功,在单个节点(每个节点八核)上运行
$ mpirun -np 8 vasp
时候,top下,发现确实出现八个vasp进程。
但是,跨节点的时候,确出错了,出错信息如下:
running on   15 nodes
distr:  one band on    1 nodes,   15 groups
vasp.5.2.12 11Nov11 complex                                                   
  
POSCAR found :  1 types and       2 ions

-----------------------------------------------------------------------------
|                                                                             |
|           W    W    AA    RRRRR   N    N  II  N    N   GGGG   !!!           |
|           W    W   A  A   R    R  NN   N  II  NN   N  G    G  !!!           |
|           W    W  A    A  R    R  N N  N  II  N N  N  G       !!!           |
|           W WW W  AAAAAA  RRRRR   N  N N  II  N  N N  G  GGG   !            |
|           WW  WW  A    A  R   R   N   NN  II  N   NN  G    G                |
|           W    W  A    A  R    R  N    N  II  N    N   GGGG   !!!           |
|                                                                             |
|      For optimal performance we recommend that you set                      |
|        NPAR = approx SQRT( number of cores)                                 |
|      This will greatly improve the performance of VASP for DFT.             |
|      The default NPAR=number of cores might be grossly inefficient          |
|      on modern multi-core architectures or massively parallel machines.     |
|      Unfortunately you need to use the default for hybrid, GW and RPA       |
|      calculations.                                                          |
|                                                                             |
-----------------------------------------------------------------------------

LDA part: xc-table for Pade appr. of Perdew
found WAVECAR, reading the header
  number of bands has changed, file:    12 present:    15
  trying to continue reading WAVECAR, but it might fail
POSCAR, INCAR and KPOINTS ok, starting setup
WARNING: small aliasing (wrap around) errors must be expected
FFT: planning ...(           1 )
reading WAVECAR
random initialization beyond band           13
the WAVECAR file was read sucessfully
initial charge from wavefunction
entering main loop
       N       E                     dE             d eps       ncg     rms          rms(c)
mpiexec_node-1 (handle_stdin_input 1089): stdin problem; if pgm is run in background, redirect from /dev/null
mpiexec_node-1 (handle_stdin_input 1090):     e.g.: mpiexec -n 4 a.out < /dev/null &
rank 14 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 14: killed by signal 11
rank 13 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 13: killed by signal 9
rank 9 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 9: killed by signal 11
rank 8 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 8: killed by signal 11
rank 4 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 4: killed by signal 11
rank 3 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 3: killed by signal 9
rank 2 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 2: killed by signal 9
rank 1 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 1: killed by signal 11
rank 0 in job 14  node-1_49061   caused collective abort of all ranks

其中node-1是我的控制节点。进程数为12以下的时候都运行正常
$ mpirun -machinefile ~/machinefile -np 12 vasp > 5out
其中,mpich2,我用cpi测试,各个节点都OK的,并且能够跑上百个核。
求高人指点,为什么vasp跨节点的时候出现这样的错误?该如何解决?非常感谢啊。
另,想问下,编译的时候,make makeparam,生成的这个makeparam是干嘛用的?
回复此楼
集中精力发文章
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

uuv2010

荣誉版主 (职业作家)

优秀版主

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
franch(金币+2): 谢谢回帖交流 2012-01-09 12:10:09
04nylxb(金币+4): 有帮助 收到,非常感谢啊 2012-01-09 19:08:42
NPAR = approx SQRT( number of cores)  应该是NPAR近似等于并行核数的开方,这个是从5.2.12的光棍节版本开始的警告,
其他的报错可能是并行没有安装好的原因所致
4楼2012-01-09 10:07:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

uuv2010

荣誉版主 (职业作家)

优秀版主

【答案】应助回帖


WDD880227(金币+1): 感谢交流~~ 2012-01-09 23:44:05
内容已删除
6楼2012-01-09 22:21:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 04nylxb 的主题更新
信息提示
请填处理意见