| 查看: 3132 | 回复: 5 | ||
04nylxb木虫 (正式写手)
|
[求助]
vasp跨节点运行出错,mpiexec_node-1 (handle_stdin_input 1089)
|
|
最近在集群上编译带CNEB的vasp5.2,并行vasp编译成功,在单个节点(每个节点八核)上运行 $ mpirun -np 8 vasp 时候,top下,发现确实出现八个vasp进程。 但是,跨节点的时候,确出错了,出错信息如下: running on 15 nodes distr: one band on 1 nodes, 15 groups vasp.5.2.12 11Nov11 complex POSCAR found : 1 types and 2 ions ----------------------------------------------------------------------------- | | | W W AA RRRRR N N II N N GGGG !!! | | W W A A R R NN N II NN N G G !!! | | W W A A R R N N N II N N N G !!! | | W WW W AAAAAA RRRRR N N N II N N N G GGG ! | | WW WW A A R R N NN II N NN G G | | W W A A R R N N II N N GGGG !!! | | | | For optimal performance we recommend that you set | | NPAR = approx SQRT( number of cores) | | This will greatly improve the performance of VASP for DFT. | | The default NPAR=number of cores might be grossly inefficient | | on modern multi-core architectures or massively parallel machines. | | Unfortunately you need to use the default for hybrid, GW and RPA | | calculations. | | | ----------------------------------------------------------------------------- LDA part: xc-table for Pade appr. of Perdew found WAVECAR, reading the header number of bands has changed, file: 12 present: 15 trying to continue reading WAVECAR, but it might fail POSCAR, INCAR and KPOINTS ok, starting setup WARNING: small aliasing (wrap around) errors must be expected FFT: planning ...( 1 ) reading WAVECAR random initialization beyond band 13 the WAVECAR file was read sucessfully initial charge from wavefunction entering main loop N E dE d eps ncg rms rms(c) mpiexec_node-1 (handle_stdin_input 1089): stdin problem; if pgm is run in background, redirect from /dev/null mpiexec_node-1 (handle_stdin_input 1090): e.g.: mpiexec -n 4 a.out < /dev/null & rank 14 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 14: killed by signal 11 rank 13 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 13: killed by signal 9 rank 9 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 9: killed by signal 11 rank 8 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 8: killed by signal 11 rank 4 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 4: killed by signal 11 rank 3 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 3: killed by signal 9 rank 2 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 2: killed by signal 9 rank 1 in job 14 node-1_49061 caused collective abort of all ranks exit status of rank 1: killed by signal 11 rank 0 in job 14 node-1_49061 caused collective abort of all ranks 其中node-1是我的控制节点。进程数为12以下的时候都运行正常 $ mpirun -machinefile ~/machinefile -np 12 vasp > 5out 其中,mpich2,我用cpi测试,各个节点都OK的,并且能够跑上百个核。 求高人指点,为什么vasp跨节点的时候出现这样的错误?该如何解决?非常感谢啊。 另,想问下,编译的时候,make makeparam,生成的这个makeparam是干嘛用的? |
» 猜你喜欢
2025冷门绝学什么时候出结果
已经有3人回复
天津工业大学郑柳春团队欢迎化学化工、高分子化学或有机合成方向的博士生和硕士生加入
已经有4人回复
康复大学泰山学者周祺惠团队招收博士研究生
已经有6人回复
AI论文写作工具:是科研加速器还是学术作弊器?
已经有3人回复
孩子确诊有中度注意力缺陷
已经有6人回复
2026博士申请-功能高分子,水凝胶方向
已经有6人回复
论文投稿,期刊推荐
已经有4人回复
硕士和导师闹得不愉快
已经有13人回复
请问2026国家基金面上项目会启动申2停1吗
已经有5人回复
同一篇文章,用不同账号投稿对编辑决定是否送审有没有影响?
已经有3人回复
» 本主题相关价值贴推荐,对您同样有帮助:
vasp并行测试时出错。
已经有7人回复
vasp 并行运算出错
已经有7人回复
【求助】安装vasp出错 make: *** [fftmpi_map.o] 错误 1【已解决】
已经有6人回复
【求助】VASP5.2 编译出错make: *** [vasp] 错误 1,请大家帮忙分析分析,谢谢
已经有7人回复
【求助】vasp运行出错 大家帮忙看看
已经有18人回复
【求助】VASP编译出错
已经有5人回复
【求助】vasp运行问题
已经有7人回复

04nylxb
木虫 (正式写手)
- 应助: 33 (小学生)
- 金币: 2321.9
- 散金: 46
- 红花: 4
- 帖子: 824
- 在线: 262.6小时
- 虫号: 817223
- 注册: 2009-07-28
- 性别: GG
- 专业: 工程热物理相关交叉领域

2楼2012-01-08 23:34:31
liliangfang
荣誉版主 (著名写手)
- 1ST强帖: 7
- 应助: 138 (高中生)
- 贵宾: 0.952
- 金币: 10648.7
- 散金: 4575
- 红花: 42
- 沙发: 3
- 帖子: 1856
- 在线: 825.2小时
- 虫号: 1275010
- 注册: 2011-04-23
- 性别: GG
- 专业: 微/纳机械系统
- 管辖: 第一性原理
3楼2012-01-09 08:38:20
uuv2010
荣誉版主 (职业作家)
- 1ST强帖: 6
- 应助: 160 (高中生)
- 贵宾: 3.14
- 金币: 3679.7
- 散金: 5802
- 红花: 79
- 沙发: 35
- 帖子: 4560
- 在线: 915.2小时
- 虫号: 966216
- 注册: 2010-03-09
- 性别: GG
- 专业: 凝聚态物性 II :电子结构
- 管辖: 第一性原理
4楼2012-01-09 10:07:28
04nylxb
木虫 (正式写手)
- 应助: 33 (小学生)
- 金币: 2321.9
- 散金: 46
- 红花: 4
- 帖子: 824
- 在线: 262.6小时
- 虫号: 817223
- 注册: 2009-07-28
- 性别: GG
- 专业: 工程热物理相关交叉领域
★ ★
franch(金币+2): 鼓励交流,,呵呵 2012-01-09 20:12:34
franch(金币+2): 鼓励交流,,呵呵 2012-01-09 20:12:34
|
非常感谢。 嗯,NPAR我都设成了并行的核数了,感觉这个节点数无法估计啊,有时候任务调度系统分配给4个节点,有时候分配给10个节点。是否不需要严格的节点数?按照它说的近似corse的开方即可? mpi方面,我用的是mpich2,我用Mpi自带的examples下面的cpi测试,发现并行都是顺利完成,指定几个节点,输出里面会有相应的节点运行报告,是否可以说mpi安装是好的? 我昨天测试运行的时候还发现一个问题,有时候去提交任务,-np 64之类的,任务正常,各个节点都会分配vasp任务,然后过了一两个小时之后,再次运行同样的任务,vasp又出现上面的错误了,汗,郁闷啊。 |

5楼2012-01-09 19:14:05
uuv2010
荣誉版主 (职业作家)
- 1ST强帖: 6
- 应助: 160 (高中生)
- 贵宾: 3.14
- 金币: 3679.7
- 散金: 5802
- 红花: 79
- 沙发: 35
- 帖子: 4560
- 在线: 915.2小时
- 虫号: 966216
- 注册: 2010-03-09
- 性别: GG
- 专业: 凝聚态物性 II :电子结构
- 管辖: 第一性原理
6楼2012-01-09 22:21:18













回复此楼
