24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1085  |  回复: 4
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

xrhinoceros

金虫 (小有名气)

[求助] mpich2杀进程的问题

不知道各位大侠有没有遇到这样的情况,自己搭建的小型cluster,用mpich2做并行环境,然后并行vasp,如果想杀死作业,在一台机器上killall -9 vasp之后,有时候其他结点的相关进程也会终止,这是我们想要的情况。可有些时候,其他节点的vasp进程还在,要一台机器一台机器的去杀!

请问这是为什么?有什么解决的办法没有?
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

dxcharlary

专家顾问 (职业作家)

★ ★
youzhizhe(金币+2): 谢谢交流。 2011-08-17 15:12:50
很少情况下会出现这个问题,不是很经常。好像是系统bug。估计是linux系统本身的稳定性问题。这个东西在系统过忙运行程序较多时,比较容易出现。而且我感觉貌似可视化的Xterm比文字界面的ssh更容易出现这种问题。
另外mpiboot之后,mpich本身会建一个python进程,那个进程不能动,一旦kill后果很严重。

» 本帖已获得的红花(最新10朵)

4楼2011-08-17 12:00:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 5 个回答

jjf_sxnu

铜虫 (正式写手)

【答案】应助回帖

★ ★ ★
franch(金币+3): 谢谢回帖交流 2011-08-15 23:46:32
xrhinoceros(金币+2): 2011-08-16 02:27:17
首先你的节点文件可能导致你在一台节点上运行了多个Vasp任务(如你启用8个进程,提供了8个节点,则在每台机子上只启动一个进程,如果你的计算机是多核的,则还可以有为其它任务提供CPU。),你用killall命令则会杀死所用名为vasp的进程,如果此时,在某一节点机上运行了多个任务,就都杀死了。你可以在启动任务的时候记录任务号来精确杀死一个任务,另外就是自己保证在每个节点上只运行一个相关任务。最好的办法是结合PBS系统。
2楼2011-08-15 23:32:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xrhinoceros

金虫 (小有名气)

我现在装了slurm作业管理器,然后scancel jobid的时候,还是存在这个问题,只在第一个结点作业消失,其他节点作业还在。
3楼2011-08-16 02:27:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xrhinoceros

金虫 (小有名气)

送鲜花一朵
引用回帖:
4楼: Originally posted by dxcharlary at 2011-08-17 12:00:11:
很少情况下会出现这个问题,不是很经常。好像是系统bug。估计是linux系统本身的稳定性问题。这个东西在系统过忙运行程序较多时,比较容易出现。而且我感觉貌似可视化的Xterm比文字界面的ssh更容易出现这种问题。
...

谢谢,这个我知道,我发现问题现在可以简化成这个样子的了。

我用slurm作业管理系统,用mpich2并行时提交的作业cancel的时候,只有第一个结点作业被取消,其他结点作业还在运行(消耗cpu)

如果用openmpi并行,则没有这个问题。估计还是mpich2的问题
5楼2011-08-18 01:43:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见