24小时热门版块排行榜    

查看: 3018  |  回复: 16

zzr0427

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我也遇到了相同的问题,不知道楼主最终找到原因了没有?求指导啊亲
11楼2013-03-29 16:00:39
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

内容已删除
弘德明志博学笃行
12楼2013-03-29 21:36:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzr0427

新虫 (初入文坛)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
fegg7502: 金币+1, 鼓励交流 2013-04-02 09:19:17
内容已删除
13楼2013-03-30 16:45:03
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wuy069

铁杆木虫 (正式写手)

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
fegg7502: 金币+2, 3ks 2013-04-02 09:19:27
引用回帖:
12楼: Originally posted by zhangguangping at 2013-03-29 21:36:21
软件的bug吧。免费的就是这样啊。...

尽管我现在使用Grid Engine,不是很喜欢Torque/Maui了,但我觉得它胜任这些简单的调度是没有问题的。

出现有资源而排队这种情况,首先用Maui中的checkjob命令查看下这个jobid的信息,为什么排队;一般来说,Torque是按nodes中计算节点的顺序来按顺序分配资源(这点我也不喜欢),可能是被分配到的节点出了问题,用checknode命令检查下这个节点;或者使用指定节点nodes=ur_nodename来提交任务看看。

也有可能是中断的任务产生的临时文件引起的,删除任务所建的临时文件夹以及Torque相应的文件;我的torque安装在/var/spool/torque,集群提交节点的hostname是cluster.hpc.org,中断任务torque产生的文件有:
rm -rf /var/spool/torque/aux/${jobid}.cluster.hpc.org         
rm -rf /var/spool/torque/spool/${jobid}.cluster.hpc.org.OU     
rm -rf /var/spool/torque/undelivered/${jobid}.cluster.hpc.org.*
删除一周以前产生的记录文件,
find /var/spool/torque/mom_logs/* -mtime +7 | xargs rm -rf

可能有时需要重启下pbs_server,pbs_mom服务,再重启下maui服务器;再提交任务试试。

如果实在厌烦了Torque,也欢迎使用Grid Engine(功能比Torque强大多了);但如果就只用到简单的任务调度,Torque/Maui完全能胜任(我现在也在使用,只不过主要都转移向Grid Engine了)。
14楼2013-03-30 20:46:10
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzr0427

新虫 (初入文坛)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
14楼: Originally posted by wuy069 at 2013-03-30 20:46:10
尽管我现在使用Grid Engine,不是很喜欢Torque/Maui了,但我觉得它胜任这些简单的调度是没有问题的。

出现有资源而排队这种情况,首先用Maui中的checkjob命令查看下这个jobid的信息,为什么排队;一般来说,Tor ...

老师,我想请教您一下,我的Torque用的是4.1的版本,我提交到队列里的任务一直处在Q的状态,只有手动qrun才会执行,我觉得应该是任务调度有问题。pbs_sched处在执行的状态,但就是不调度,我想请教您一下,这可能是什么原因呢?如果我想装Maui的话,Maui已经不更新了,旧版的Maui可以搭配Torque4.1吗?万分感谢!!!
15楼2013-04-17 22:50:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
15楼: Originally posted by zzr0427 at 2013-04-17 22:50:59
老师,我想请教您一下,我的Torque用的是4.1的版本,我提交到队列里的任务一直处在Q的状态,只有手动qrun才会执行,我觉得应该是任务调度有问题。pbs_sched处在执行的状态,但就是不调度,我想请教您一下,这可能是 ...

我一直用的maui和torque的组合。只有torque我还没有试过。即使他们两个的组合,有时候也会出现你的这个问题。我觉得你可以去尝试一下,他们是不是匹配。
弘德明志博学笃行
16楼2013-04-18 09:23:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

suntao1982

木虫 (著名写手)

小木虫

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
csgt0: 金币+1, 欢迎交流 2013-05-09 14:11:28
如果是 pbs_sched 调度,修改sched_config 配置文件  max_starve: 24:00:00,好像讲该值调大,
如果是maui调度,我加上set server moab_array_compatible = True ,目前是等待时间超过24个小时后可以调度。其他的还在做调试!不知是否可以
做中国人的化学!!!!
17楼2013-05-06 22:09:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangguangping 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见