24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1092  |  回复: 4
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

xrhinoceros

金虫 (小有名气)

[求助] mpich2杀进程的问题

不知道各位大侠有没有遇到这样的情况,自己搭建的小型cluster,用mpich2做并行环境,然后并行vasp,如果想杀死作业,在一台机器上killall -9 vasp之后,有时候其他结点的相关进程也会终止,这是我们想要的情况。可有些时候,其他节点的vasp进程还在,要一台机器一台机器的去杀!

请问这是为什么?有什么解决的办法没有?
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xrhinoceros

金虫 (小有名气)

我现在装了slurm作业管理器,然后scancel jobid的时候,还是存在这个问题,只在第一个结点作业消失,其他节点作业还在。
3楼2011-08-16 02:27:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xrhinoceros

金虫 (小有名气)

送鲜花一朵
引用回帖:
4楼: Originally posted by dxcharlary at 2011-08-17 12:00:11:
很少情况下会出现这个问题,不是很经常。好像是系统bug。估计是linux系统本身的稳定性问题。这个东西在系统过忙运行程序较多时,比较容易出现。而且我感觉貌似可视化的Xterm比文字界面的ssh更容易出现这种问题。
...

谢谢,这个我知道,我发现问题现在可以简化成这个样子的了。

我用slurm作业管理系统,用mpich2并行时提交的作业cancel的时候,只有第一个结点作业被取消,其他结点作业还在运行(消耗cpu)

如果用openmpi并行,则没有这个问题。估计还是mpich2的问题
5楼2011-08-18 01:43:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 xrhinoceros 的主题更新
信息提示
请填处理意见