24小时热门版块排行榜    

查看: 4241  |  回复: 41
本帖产生 1 个 计算强帖 ,点击这里进行查看
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

zhangguangping

木虫 (著名写手)

[交流] 遇到实验室有些同学不按章程用集群怎么办? 已有15人参与

我们集群使用的是Troque+maui,自从使用之后,结束了原始的机群使用方式。但是问题也出来了:有些同学觉得排队等候很费时,不想等候。所以他们找到了一个漏洞。对于像高斯这样的软件,需要在高斯输入文件中指定并行使用的核数,同时需要在PBS脚本中指定一个申请资源的核数。
漏洞出来了:如果高斯文件里面设定的核数比PBS脚本中指定的核数小,那么高斯一旦运行是按照高斯文件中指定的核数来运行。简单的说,这种情况下,PBS脚本中的核数仅仅起一个限制何时得到资源作用。因此,为了使自己的任务尽快得到资源(因为申请资源的时候写的核数越多,平均说来需要等候的时间越多)。这样就在PBS脚本中少写,而高斯输入文件中多写。这样就能做到减少等候时间的目的。并且一旦高斯任务被分派到节点上运行起来,如果原来节点上有任务,那么高斯就开始发挥自己强大的抢夺资源的优势,对其他任务进资源抢夺,并且如果该节点还有空闲资源的话(在Troque看来有空闲资源,但实际上已经被高斯偷偷占用了),还能阻止后来的任务被分到该节点上。因为虽然Torque认为那个节点上有空闲资源,但是maui会认为那上面的空闲资源不足以满足使用的条件,原因很简单,高斯偷偷霸占了一些。所以会出现明明这个节点上有空闲资源,但是任务就是分配不到这个节点上来。

补充:对于Torque+maui任何软件都可以用这个方法来欺骗管理软件。

对于这种情况我开始不明白他们为什么这样做,并且屡次警告不止。
如果你是管理员,面对这样的同学,你会怎么处理?前提我仅仅是他们的一个师兄而已,或许在他们心里,我连一个师兄都不是了已经。

[ Last edited by zhangguangping on 2012-4-6 at 01:50 ]
回复此楼
弘德明志博学笃行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
23楼: Originally posted by zouming1979 at 2012-04-06 23:53:54:
我觉得实际矛盾看来还是资源不够,找老板加钱买机器吧,要不买计算服务吧,嘿嘿。

一语道破问题!
不过即使买了新资源,也还是不够用。因为有多少资源,就有多大的任务在等着,绝对不会只要想算东西,就有空闲资源在等着。那样的话,资源就是没有充分利用。所以排队还是需要的。因此,这种投机倒把还是会出现的。
弘德明志博学笃行
24楼2012-04-07 00:26:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
25楼: Originally posted by zouming1979 at 2012-04-07 12:13:38:
最好还是写脚本吧,监控状态,一旦违规就自动杀作业。
一提交就杀,基本上损失比较小,也没啥好闹的。自动被杀了几次,基本上就乖了,因为理亏呀。
如果运行了一段时间才杀,人家就有理了,会找麻烦的。

敢问高手这个脚本怎么写呢?能否赐教之?我们用的是Torque-2.4.6+maui-3.3.1,并且用的是节点间ssh免密码登陆。
存在隐患,有的时候两个任务会经常被分配到一个节点上,并且只有一个违规。

能不能杀掉任务之后,杀任务的脚本会通知torque和maui该任务已经结束,将资源收回去。以便让torque和maui将资源再次分配给别的任务用。
弘德明志博学笃行
26楼2012-04-07 16:03:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
28楼: Originally posted by zouming1979 at 2012-04-07 21:05:33:
我只是提供一个思路,我这边没有现成的脚本可以提供。目前我们用的是lsf。torque+maui很久以前用过,现在基本上都忘了差不多。

第一步,建议周期性(30s以上)的检查一下作业系统上作业数和实际负载是否 ...

谢谢!这个太复杂了。尤其对我们这种级别的用户而言!
弘德明志博学笃行
29楼2012-04-10 15:32:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
30楼: Originally posted by quanta at 2012-04-11 22:31:02:
这种情况技术上总是可以想办法的,比如楼上说的巡视脚本。 然而真正难办的的人,如果,如果这个不守规矩的到老板那里诉苦加拍马,老板很可能会给予特权的(这种事以前是发生过的),而且通常一个人得逞之后会有更 ...

现在已经采取了“容忍”的态度了。谢谢你的建议。这个活确实是一个出力不讨论好的活!
弘德明志博学笃行
31楼2012-04-12 14:52:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
32楼: Originally posted by suntao1982 at 2013-01-09 16:39:54
这个比较好解决,写一个脚本,在提交作业时,使之能够修改gaussian输入文件使之与与pbs输入一直,可以使用perl语言写一个,很简单的。

谢谢提供的思路。
弘德明志博学笃行
33楼2013-01-09 16:51:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)


fegg7502: 金币+1, 计算强帖+1, 应助指数+1, 专家考核, 你这话题很好,很有价值 2013-06-20 13:16:27
引用回帖:
34楼: Originally posted by gyty at 2013-06-19 18:11:55
可以写一个脚本检测某任务在PBS脚本中申请使用的CPU资源数以及其在某节点上实际使用的CPU资源数,当实际值大于申请值时将任务杀死或暂停。脚本放入cron每小时运行一次执行这种检测就会让他们受不了,用不了一个星期 ...

哈哈哈,你的这个脚本太牛了吧。你能把脚本分享一下吗?
另外,这个脚本是每个计算节点放一个,还是只在管理节点放一个?

谢谢你。
弘德明志博学笃行
35楼2013-06-19 19:04:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
36楼: Originally posted by fegg7502 at 2013-06-20 13:16:41
你这问题最后怎么解决的哦?...

没解决。呵呵呵。
弘德明志博学笃行
37楼2013-06-20 21:45:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangguangping 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见