24小时热门版块排行榜    

查看: 3022  |  回复: 16
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

zhangguangping

木虫 (著名写手)

[交流] 关于Troque提交任务需要用qrun才能运行的讨论 已有6人参与

Troque+Maui,一直用的很好,今天突然发现有的账户提交任务后,一直在排队,其实对那个账户来说是有资源可利用的。非得需要用qrun命令才能运行。我到小木虫上搜索了一下,发现也有相同的帖子,但是均未给出解决办法:
http://muchong.com/bbs/viewthread.php?tid=1799745
http://muchong.com/bbs/viewthread.php?tid=1272931
http://muchong.com/bbs/viewthread.php?tid=2717220

咱们板块的高手能不能给出解决办法呢?
回复此楼
弘德明志博学笃行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wuy069

铁杆木虫 (正式写手)

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
fegg7502: 金币+2, 3ks 2013-04-02 09:19:27
引用回帖:
12楼: Originally posted by zhangguangping at 2013-03-29 21:36:21
软件的bug吧。免费的就是这样啊。...

尽管我现在使用Grid Engine,不是很喜欢Torque/Maui了,但我觉得它胜任这些简单的调度是没有问题的。

出现有资源而排队这种情况,首先用Maui中的checkjob命令查看下这个jobid的信息,为什么排队;一般来说,Torque是按nodes中计算节点的顺序来按顺序分配资源(这点我也不喜欢),可能是被分配到的节点出了问题,用checknode命令检查下这个节点;或者使用指定节点nodes=ur_nodename来提交任务看看。

也有可能是中断的任务产生的临时文件引起的,删除任务所建的临时文件夹以及Torque相应的文件;我的torque安装在/var/spool/torque,集群提交节点的hostname是cluster.hpc.org,中断任务torque产生的文件有:
rm -rf /var/spool/torque/aux/${jobid}.cluster.hpc.org         
rm -rf /var/spool/torque/spool/${jobid}.cluster.hpc.org.OU     
rm -rf /var/spool/torque/undelivered/${jobid}.cluster.hpc.org.*
删除一周以前产生的记录文件,
find /var/spool/torque/mom_logs/* -mtime +7 | xargs rm -rf

可能有时需要重启下pbs_server,pbs_mom服务,再重启下maui服务器;再提交任务试试。

如果实在厌烦了Torque,也欢迎使用Grid Engine(功能比Torque强大多了);但如果就只用到简单的任务调度,Torque/Maui完全能胜任(我现在也在使用,只不过主要都转移向Grid Engine了)。
14楼2013-03-30 20:46:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 17 个回答

风间的记忆

铁杆木虫 (著名写手)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
dbb627: 金币+1, 欢迎交流 2012-03-16 11:23:14
我猜测啊
虽然我们是GE
大部分可能是资源虽然是空闲的
但有垃圾信息
比如内存和CPU被占用了
调度系统认为资源条件不够
QRUN是强制运行
即使开始运行
效率也不会高
清理垃圾试试
也可以重启。。。。
如果可能
看看为什么垃圾会产生
很大的可能是程序写的不好
九州浩淼,任其东西,明日何在,但随我意。
2楼2012-03-16 09:21:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
2楼: Originally posted by 风间的记忆 at 2012-03-16 09:21:55:
我猜测啊
虽然我们是GE
大部分可能是资源虽然是空闲的
但有垃圾信息
比如内存和CPU被占用了
调度系统认为资源条件不够
QRUN是强制运行
即使开始运行
效率也不会高
清理垃圾试试
也可以重启。。。。
如 ...

有这些可能。另外您说的最后一句程序写的不好,是指的上一次在该节点运行的程序写的不好吧?他们运行过后,没有做收尾工作,留下一些垃圾,导致调度系统认为条件不合适呢。
看来Troque调度系统检查的东西挺多,并不是说只要有资源,就可以往上提交。可能需要检查cup负载,内存等情况。

谢谢您的提醒!
弘德明志博学笃行
3楼2012-03-16 10:11:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)


dbb627: 金币+1, 欢迎交流 2012-03-16 11:23:38
引用回帖:
3楼: Originally posted by zhangguangping at 2012-03-16 10:11:50:
有这些可能。另外您说的最后一句程序写的不好,是指的上一次在该节点运行的程序写的不好吧?他们运行过后,没有做收尾工作,留下一些垃圾,导致调度系统认为条件不合适呢。
看来Troque调度系统检查的东西挺多, ...

不是检查挺多
而是必须检查CPU和内存。。。
任何调度系统都是这样的
九州浩淼,任其东西,明日何在,但随我意。
4楼2012-03-16 10:35:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见