24小时热门版块排行榜    

查看: 3314  |  回复: 5

04nylxb

木虫 (正式写手)

[求助] vasp跨节点运行出错,mpiexec_node-1 (handle_stdin_input 1089)

最近在集群上编译带CNEB的vasp5.2,并行vasp编译成功,在单个节点(每个节点八核)上运行
$ mpirun -np 8 vasp
时候,top下,发现确实出现八个vasp进程。
但是,跨节点的时候,确出错了,出错信息如下:
running on   15 nodes
distr:  one band on    1 nodes,   15 groups
vasp.5.2.12 11Nov11 complex                                                   
  
POSCAR found :  1 types and       2 ions

-----------------------------------------------------------------------------
|                                                                             |
|           W    W    AA    RRRRR   N    N  II  N    N   GGGG   !!!           |
|           W    W   A  A   R    R  NN   N  II  NN   N  G    G  !!!           |
|           W    W  A    A  R    R  N N  N  II  N N  N  G       !!!           |
|           W WW W  AAAAAA  RRRRR   N  N N  II  N  N N  G  GGG   !            |
|           WW  WW  A    A  R   R   N   NN  II  N   NN  G    G                |
|           W    W  A    A  R    R  N    N  II  N    N   GGGG   !!!           |
|                                                                             |
|      For optimal performance we recommend that you set                      |
|        NPAR = approx SQRT( number of cores)                                 |
|      This will greatly improve the performance of VASP for DFT.             |
|      The default NPAR=number of cores might be grossly inefficient          |
|      on modern multi-core architectures or massively parallel machines.     |
|      Unfortunately you need to use the default for hybrid, GW and RPA       |
|      calculations.                                                          |
|                                                                             |
-----------------------------------------------------------------------------

LDA part: xc-table for Pade appr. of Perdew
found WAVECAR, reading the header
  number of bands has changed, file:    12 present:    15
  trying to continue reading WAVECAR, but it might fail
POSCAR, INCAR and KPOINTS ok, starting setup
WARNING: small aliasing (wrap around) errors must be expected
FFT: planning ...(           1 )
reading WAVECAR
random initialization beyond band           13
the WAVECAR file was read sucessfully
initial charge from wavefunction
entering main loop
       N       E                     dE             d eps       ncg     rms          rms(c)
mpiexec_node-1 (handle_stdin_input 1089): stdin problem; if pgm is run in background, redirect from /dev/null
mpiexec_node-1 (handle_stdin_input 1090):     e.g.: mpiexec -n 4 a.out < /dev/null &
rank 14 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 14: killed by signal 11
rank 13 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 13: killed by signal 9
rank 9 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 9: killed by signal 11
rank 8 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 8: killed by signal 11
rank 4 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 4: killed by signal 11
rank 3 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 3: killed by signal 9
rank 2 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 2: killed by signal 9
rank 1 in job 14  node-1_49061   caused collective abort of all ranks
  exit status of rank 1: killed by signal 11
rank 0 in job 14  node-1_49061   caused collective abort of all ranks

其中node-1是我的控制节点。进程数为12以下的时候都运行正常
$ mpirun -machinefile ~/machinefile -np 12 vasp > 5out
其中,mpich2,我用cpi测试,各个节点都OK的,并且能够跑上百个核。
求高人指点,为什么vasp跨节点的时候出现这样的错误?该如何解决?非常感谢啊。
另,想问下,编译的时候,make makeparam,生成的这个makeparam是干嘛用的?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

集中精力发文章
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

期待高人解答……
困扰我几天了,总是出现这个问题,导致后面的计算无法进行下去
集中精力发文章
2楼2012-01-08 23:34:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

liliangfang

荣誉版主 (著名写手)

【答案】应助回帖


感谢参与,应助指数 +1
uuv2010(金币+1): 欢迎参加讨论 2012-01-09 10:04:06
04nylxb(金币+4): 有帮助 收到,非常感谢啊 2012-01-09 19:07:59
NPAR=你所用节点的核心数,还有可能是你并行不安装不成功
3楼2012-01-09 08:38:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

uuv2010

荣誉版主 (职业作家)

优秀版主

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
franch(金币+2): 谢谢回帖交流 2012-01-09 12:10:09
04nylxb(金币+4): 有帮助 收到,非常感谢啊 2012-01-09 19:08:42
NPAR = approx SQRT( number of cores)  应该是NPAR近似等于并行核数的开方,这个是从5.2.12的光棍节版本开始的警告,
其他的报错可能是并行没有安装好的原因所致
4楼2012-01-09 10:07:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

★ ★
franch(金币+2): 鼓励交流,,呵呵 2012-01-09 20:12:34
引用回帖:
4楼: Originally posted by uuv2010 at 2012-01-09 10:07:28:
NPAR = approx SQRT( number of cores)  应该是NPAR近似等于并行核数的开方,这个是从5.2.12的光棍节版本开始的警告,
其他的报错可能是并行没有安装好的原因所致

非常感谢。
嗯,NPAR我都设成了并行的核数了,感觉这个节点数无法估计啊,有时候任务调度系统分配给4个节点,有时候分配给10个节点。是否不需要严格的节点数?按照它说的近似corse的开方即可?

mpi方面,我用的是mpich2,我用Mpi自带的examples下面的cpi测试,发现并行都是顺利完成,指定几个节点,输出里面会有相应的节点运行报告,是否可以说mpi安装是好的?

我昨天测试运行的时候还发现一个问题,有时候去提交任务,-np 64之类的,任务正常,各个节点都会分配vasp任务,然后过了一两个小时之后,再次运行同样的任务,vasp又出现上面的错误了,汗,郁闷啊。
集中精力发文章
5楼2012-01-09 19:14:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

uuv2010

荣誉版主 (职业作家)

优秀版主

【答案】应助回帖


WDD880227(金币+1): 感谢交流~~ 2012-01-09 23:44:05
内容已删除
6楼2012-01-09 22:21:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 04nylxb 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 286求调剂 +3 lemonzzn 2026-03-16 5/250 2026-03-16 20:43 by lemonzzn
[考研] 085600调剂 +5 漾漾123sun 2026-03-12 6/300 2026-03-16 15:58 by 漾漾123sun
[考研] 材料与化工求调剂 +3 为学666 2026-03-16 3/150 2026-03-16 15:09 by 加号+
[考研] 309求调剂 +5 花与叶@ 2026-03-10 5/250 2026-03-16 14:13 by 哦哦123
[考研] 311求调剂 +6 冬十三 2026-03-15 6/300 2026-03-16 08:00 by wang_dand
[考研] 材料工程专硕274一志愿211求调剂 +5 薛云鹏 2026-03-15 5/250 2026-03-15 20:38 by Logic2024
[考研] 求老师收留调剂 +4 jiang姜66 2026-03-14 5/250 2026-03-15 20:11 by Winj1e
[考博] 东华理工大学化材专业26届硕士博士申请 +6 zlingli 2026-03-13 6/300 2026-03-15 20:00 by ryzcf
[考研] 288求调剂 +4 奇点0314 2026-03-14 4/200 2026-03-14 23:04 by JourneyLucky
[考研] 材料080500调剂求收留 +3 一颗meteor 2026-03-13 3/150 2026-03-14 10:54 by peike
[考研] 327求调剂 +4 Ffff03 2026-03-10 4/200 2026-03-14 00:17 by JourneyLucky
[考研] 材料与化工(0856)304求B区调剂 +6 邱gl 2026-03-12 7/350 2026-03-13 23:24 by 邱gl
[考研] 332求调剂 +3 zjy101327 2026-03-11 6/300 2026-03-13 22:48 by JourneyLucky
[考研] 315求调剂 +9 小羊小羊_ 2026-03-11 10/500 2026-03-13 21:13 by SXNU李老师
[考研] 工科278分求调剂 +5 周慢热啊 2026-03-12 7/350 2026-03-13 15:49 by JourneyLucky
[考研] 一志愿山大07化学 332分 四六级已过 本科山东双非 求调剂! +3 不想理你 2026-03-12 3/150 2026-03-13 14:18 by JourneyLucky
[考研] 0817化学工程与技术考研312分调剂 +3 T123 tt 2026-03-12 3/150 2026-03-13 10:49 by houyaoxu
[考研] 070303一志愿西北大学学硕310找调剂 +3 d如愿上岸 2026-03-13 3/150 2026-03-13 10:43 by houyaoxu
[考研] 290求调剂 +3 柯淮然 2026-03-10 8/400 2026-03-11 13:48 by 柯淮然
[考研] 调剂 +5 呵唔哦豁 2026-03-10 5/250 2026-03-10 22:00 by 28375m
信息提示
请填处理意见