24小时热门版块排行榜    

查看: 3045  |  回复: 16
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

zhangguangping

木虫 (著名写手)

[交流] 关于Troque提交任务需要用qrun才能运行的讨论 已有6人参与

Troque+Maui,一直用的很好,今天突然发现有的账户提交任务后,一直在排队,其实对那个账户来说是有资源可利用的。非得需要用qrun命令才能运行。我到小木虫上搜索了一下,发现也有相同的帖子,但是均未给出解决办法:
http://muchong.com/bbs/viewthread.php?tid=1799745
http://muchong.com/bbs/viewthread.php?tid=1272931
http://muchong.com/bbs/viewthread.php?tid=2717220

咱们板块的高手能不能给出解决办法呢?
回复此楼

» 收录本帖的淘帖专辑推荐

第一性原理

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

弘德明志博学笃行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wuy069

铁杆木虫 (正式写手)

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
fegg7502: 金币+2, 3ks 2013-04-02 09:19:27
引用回帖:
12楼: Originally posted by zhangguangping at 2013-03-29 21:36:21
软件的bug吧。免费的就是这样啊。...

尽管我现在使用Grid Engine,不是很喜欢Torque/Maui了,但我觉得它胜任这些简单的调度是没有问题的。

出现有资源而排队这种情况,首先用Maui中的checkjob命令查看下这个jobid的信息,为什么排队;一般来说,Torque是按nodes中计算节点的顺序来按顺序分配资源(这点我也不喜欢),可能是被分配到的节点出了问题,用checknode命令检查下这个节点;或者使用指定节点nodes=ur_nodename来提交任务看看。

也有可能是中断的任务产生的临时文件引起的,删除任务所建的临时文件夹以及Torque相应的文件;我的torque安装在/var/spool/torque,集群提交节点的hostname是cluster.hpc.org,中断任务torque产生的文件有:
rm -rf /var/spool/torque/aux/${jobid}.cluster.hpc.org         
rm -rf /var/spool/torque/spool/${jobid}.cluster.hpc.org.OU     
rm -rf /var/spool/torque/undelivered/${jobid}.cluster.hpc.org.*
删除一周以前产生的记录文件,
find /var/spool/torque/mom_logs/* -mtime +7 | xargs rm -rf

可能有时需要重启下pbs_server,pbs_mom服务,再重启下maui服务器;再提交任务试试。

如果实在厌烦了Torque,也欢迎使用Grid Engine(功能比Torque强大多了);但如果就只用到简单的任务调度,Torque/Maui完全能胜任(我现在也在使用,只不过主要都转移向Grid Engine了)。
14楼2013-03-30 20:46:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangguangping 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见