24小时热门版块排行榜    

查看: 5771  |  回复: 9

huangyc

木虫 (正式写手)

[求助] 怎么杀掉qsub提交上的无效ID

集群关机时,qsub提交的任务没有删除,等重新开机后,发现这些任务的ID还在。这时候执行qdel命令发现删不了了
qdel: Server could not connect to MOM 978.node0
qdel: Server could not connect to MOM 981.node0
qdel: Server could not connect to MOM 982.node0
qdel: Server could not connect to MOM 1005.node0
qdel: Server could not connect to MOM 1006.node0
如何解决,谢谢

这几个任务是在别的计算节点下执行的,这次没开

[ Last edited by huangyc on 2012-6-4 at 09:56 ]
回复此楼

» 收录本帖的淘帖专辑推荐

VASP VASP 仿真建模与计算

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

【答案】应助回帖

★ ★ ★
感谢参与,应助指数 +1
zhangguangping: 金币+1, 谢谢提示! 2012-06-04 22:20:39
huangyc: 金币+2, ★★★很有帮助 2012-06-05 09:33:49
qdel -f [ID]
GE的调度系统是这样的
你试试
九州浩淼,任其东西,明日何在,但随我意。
2楼2012-06-04 11:10:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

arsc

金虫 (小有名气)

【答案】应助回帖

★ ★ ★
感谢参与,应助指数 +1
zhangguangping: 金币+1, 谢谢参与! 2012-06-04 22:20:48
huangyc: 金币+2, ★★★很有帮助 2012-06-05 09:33:58
I used qdel [ID number] only but I never used qdel -f [ID] before
3楼2012-06-04 14:20:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

【答案】应助回帖

★ ★ ★
感谢参与,应助指数 +1
huangyc: 金币+3, ★★★很有帮助 2012-06-05 09:34:10
你的计算节点没有重启吧?如果这样的话,首先去计算节点检查一下pbs_mom有没有在运行。
ps -A|grep pbs

如果有的话,那么检查你的管理节点的pbs_server开没有开
ps -A |grep pbs
如果都正常,我也不知道该怎么办了。
弘德明志博学笃行
4楼2012-06-04 22:18:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lbbz323

铁杆木虫 (著名写手)

【答案】应助回帖

★ ★ ★
感谢参与,应助指数 +1
huangyc: 金币+3, ★★★很有帮助 2012-06-05 09:34:17
很可能是节点没有工作,可以进入节点工作的网页看看。
如果是空的,就是节点问题了。
5楼2012-06-04 22:27:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

huangyc

木虫 (正式写手)

谢谢各位

是由于这几个节点重启后我没有启动

后来我启动了涉及到这几个任务的节点,里面的任务看上去像是自动又被执行了。可是节点的mpd未开

这样的话,如果mpd能开机自动运行,集群关机后再启动任务能自动运行?
6楼2012-06-05 09:33:07
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
6楼: Originally posted by huangyc at 2012-06-05 09:33:07
谢谢各位

是由于这几个节点重启后我没有启动

后来我启动了涉及到这几个任务的节点,里面的任务看上去像是自动又被执行了。可是节点的mpd未开

这样的话,如果mpd能开机自动运行,集群关机后再启动任务能自动 ...

你的这个难度较大。
我知道的是如果你只是重启一下管理节点,那么所有的任务都是照常运行的,并且那些任务自动会添加到toruqe的队列中去。但是你把计算节点重启了,上面运行的任务很可能就掉了。如果你的torque具有备份cheeckpoint的功能不知道会是什么样子。不要指望软件这么高级吧。
你可以重新开贴问一下你的这个问题。就是在torque框架下,管理节点和计算节点都重新启动后,重启前计算节点上在算的任务能继续算不算。
弘德明志博学笃行
7楼2012-06-05 09:41:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

chenweiguang

金虫 (小有名气)

这种情况一般是那个节点有问题,或者mom没有启动
如果是torque的pbs的话,可以使用qdel -p 强制删除,需要管理员权限
8楼2012-06-25 10:39:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

贺仪

铁杆木虫 (著名写手)

你直接进入相应的节点,kill掉运行的进程就可以了
嘟啦啦嘟啦啦嘟
9楼2012-06-26 17:29:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

宏玉40906373

银虫 (初入文坛)

引用回帖:
4楼: Originally posted by zhangguangping at 2012-06-04 22:18:20
你的计算节点没有重启吧?如果这样的话,首先去计算节点检查一下pbs_mom有没有在运行。
ps -A|grep pbs

如果有的话,那么检查你的管理节点的pbs_server开没有开
ps -A |grep pbs
如果都正常,我也不知道该怎么 ...

您好,怎么看是否是正常的呀?我刚学就出现这问题了,不知道怎么处理
10楼2016-03-02 14:08:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 huangyc 的主题更新
信息提示
请填处理意见