24小时热门版块排行榜    

查看: 4330  |  回复: 41
本帖产生 1 个 计算强帖 ,点击这里进行查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

zhangguangping

木虫 (著名写手)

[交流] 遇到实验室有些同学不按章程用集群怎么办? 已有15人参与

我们集群使用的是Troque+maui,自从使用之后,结束了原始的机群使用方式。但是问题也出来了:有些同学觉得排队等候很费时,不想等候。所以他们找到了一个漏洞。对于像高斯这样的软件,需要在高斯输入文件中指定并行使用的核数,同时需要在PBS脚本中指定一个申请资源的核数。
漏洞出来了:如果高斯文件里面设定的核数比PBS脚本中指定的核数小,那么高斯一旦运行是按照高斯文件中指定的核数来运行。简单的说,这种情况下,PBS脚本中的核数仅仅起一个限制何时得到资源作用。因此,为了使自己的任务尽快得到资源(因为申请资源的时候写的核数越多,平均说来需要等候的时间越多)。这样就在PBS脚本中少写,而高斯输入文件中多写。这样就能做到减少等候时间的目的。并且一旦高斯任务被分派到节点上运行起来,如果原来节点上有任务,那么高斯就开始发挥自己强大的抢夺资源的优势,对其他任务进资源抢夺,并且如果该节点还有空闲资源的话(在Troque看来有空闲资源,但实际上已经被高斯偷偷占用了),还能阻止后来的任务被分到该节点上。因为虽然Torque认为那个节点上有空闲资源,但是maui会认为那上面的空闲资源不足以满足使用的条件,原因很简单,高斯偷偷霸占了一些。所以会出现明明这个节点上有空闲资源,但是任务就是分配不到这个节点上来。

补充:对于Torque+maui任何软件都可以用这个方法来欺骗管理软件。

对于这种情况我开始不明白他们为什么这样做,并且屡次警告不止。
如果你是管理员,面对这样的同学,你会怎么处理?前提我仅仅是他们的一个师兄而已,或许在他们心里,我连一个师兄都不是了已经。

[ Last edited by zhangguangping on 2012-4-6 at 01:50 ]
回复此楼
弘德明志博学笃行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
26楼: Originally posted by zhangguangping at 2012-04-07 16:03:37:
敢问高手这个脚本怎么写呢?能否赐教之?我们用的是Torque-2.4.6+maui-3.3.1,并且用的是节点间ssh免密码登陆。
存在隐患,有的时候两个任务会经常被分配到一个节点上,并且只有一个违规。

能不能杀掉任务之 ...

我只是提供一个思路,我这边没有现成的脚本可以提供。目前我们用的是lsf。torque+maui很久以前用过,现在基本上都忘了差不多。

第一步,建议周期性(30s以上)的检查一下作业系统上作业数和实际负载是否有差别。 比如作业管理系统分配四个slot,但是负载(loadavg)高于5或者6(留点余量),说明可能有作业超用资源或者有在作业管理系统监控以外的进程运行。(建议是至少违规2个周期以上才执行动作,避免误差。 不知道torque+maui是否命令可以获得实际负载,否则就只能自己去取了
第二步,检查违规节点上的进程情况,如果有非作业管理系统分配的用户进程,直接杀之。如果用户高负载的进程数大于分配数,可以直接杀进程,或者让作业管理系统杀作业。

杀掉用户进程之后,通常作业管理系统是会知道作业结束了
中间许多的细节的我们可以讨论如何获取,如果有兴趣的话

[ Last edited by zouming1979 on 2012-4-7 at 21:36 ]
28楼2012-04-07 21:05:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 42 个回答

Jasminer

铁杆木虫 (著名写手)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+1, 谢谢参与 2012-04-06 08:01:27
这种事情,老板如果不给出实际措施支持你,是没法解决的。
2楼2012-04-06 02:07:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

独唱团

金虫 (正式写手)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+1, 谢谢参与~ 2012-04-06 08:01:44
汗,没想到还有这么投机倒把的。技术层面的不懂,给你点非技术的建议,如果严重影响集群正常运行,劝说无效的话,你就得跟你们课题组负责人讲一下了。他应该会给各导师说一下这个情况,让学生不要再这么做。考虑到有些人表面一套背地一套,肯定会继续我行我素,那你就继续向上提意见。直到你们负责人拿出个处罚措施,比如限制登录多少天之类的。
如果没有影响到正常运行,那就睁一只眼闭一只眼吧。
3楼2012-04-06 02:08:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
2楼: Originally posted by Jasminer at 2012-04-06 02:07:04:
这种事情,老板如果不给出实际措施支持你,是没法解决的。

谢谢支招!
弘德明志博学笃行
4楼2012-04-06 07:16:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见