24小时热门版块排行榜    

查看: 4200  |  回复: 41
本帖产生 1 个 计算强帖 ,点击这里进行查看

zhangguangping

木虫 (著名写手)

[交流] 遇到实验室有些同学不按章程用集群怎么办? 已有15人参与

我们集群使用的是Troque+maui,自从使用之后,结束了原始的机群使用方式。但是问题也出来了:有些同学觉得排队等候很费时,不想等候。所以他们找到了一个漏洞。对于像高斯这样的软件,需要在高斯输入文件中指定并行使用的核数,同时需要在PBS脚本中指定一个申请资源的核数。
漏洞出来了:如果高斯文件里面设定的核数比PBS脚本中指定的核数小,那么高斯一旦运行是按照高斯文件中指定的核数来运行。简单的说,这种情况下,PBS脚本中的核数仅仅起一个限制何时得到资源作用。因此,为了使自己的任务尽快得到资源(因为申请资源的时候写的核数越多,平均说来需要等候的时间越多)。这样就在PBS脚本中少写,而高斯输入文件中多写。这样就能做到减少等候时间的目的。并且一旦高斯任务被分派到节点上运行起来,如果原来节点上有任务,那么高斯就开始发挥自己强大的抢夺资源的优势,对其他任务进资源抢夺,并且如果该节点还有空闲资源的话(在Troque看来有空闲资源,但实际上已经被高斯偷偷占用了),还能阻止后来的任务被分到该节点上。因为虽然Torque认为那个节点上有空闲资源,但是maui会认为那上面的空闲资源不足以满足使用的条件,原因很简单,高斯偷偷霸占了一些。所以会出现明明这个节点上有空闲资源,但是任务就是分配不到这个节点上来。

补充:对于Torque+maui任何软件都可以用这个方法来欺骗管理软件。

对于这种情况我开始不明白他们为什么这样做,并且屡次警告不止。
如果你是管理员,面对这样的同学,你会怎么处理?前提我仅仅是他们的一个师兄而已,或许在他们心里,我连一个师兄都不是了已经。

[ Last edited by zhangguangping on 2012-4-6 at 01:50 ]
回复此楼

» 收录本帖的淘帖专辑推荐

材料计算模拟实用技巧

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

弘德明志博学笃行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, 釜底抽薪?~ 2012-04-06 11:00:29
不要指望老板做裁判。他才不关心什么公平不公平。他关心的是能不能出文章。
四策:
1、鼓动急于发论文、急于毕业者,砍杀盗火者;
2、有敢于顶风作案者,坐实证据;
3、做刀笔吏,先斩而不奏,杀一儆百;
4、防漏网者诬告,事先写好规章制度,请老板签字发布。
有此四策,憾天易,憾集群管理员难。
又及:此“憾”字,源自某街边小店,后送至故宫博物院。
6楼2012-04-06 09:25:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

quanta

新虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
这种情况技术上总是可以想办法的,比如楼上说的巡视脚本。 然而真正难办的的人,如果,如果这个不守规矩的到老板那里诉苦加拍马,老板很可能会给予特权的(这种事以前是发生过的),而且通常一个人得逞之后会有更多的效法者,老板的态度也会早令夕改,特权用户会一天天增多,然后问题是没法解决的。  而且技术总会有漏洞的。所以管理员是个吃力不讨好的活。
对于这个问题,关键在于老板。 私底下说说警告一下,只有不是严重干扰集群运作一般就睁一眼闭一眼了。实在不行就全杀掉,然后向所有人通报说有一个技术故障(不要让人知道是你杀的),xx天内可能无法登录啥的,然后就有人来拍你马屁了,你心情好就帮着快点解决,他还会感谢你。
---对了,这个只是适用于小集群,小组。 如果是计算中心一类的大型集群还是得技术上尽可能去除漏洞,规则执行也得铁面冷血一些。

[ Last edited by quanta on 2012-4-11 at 22:37 ]
30楼2012-04-11 22:31:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gyty

木虫 (初入文坛)

满地打滚

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
fegg7502: 金币+1, 鼓励交流 2013-06-20 10:50:28
可以写一个脚本检测某任务在PBS脚本中申请使用的CPU资源数以及其在某节点上实际使用的CPU资源数,当实际值大于申请值时将任务杀死或暂停。脚本放入cron每小时运行一次执行这种检测就会让他们受不了,用不了一个星期所有人都会变得非常自觉,再也不会有任务被脚本处理掉。

我们集群以前问题虽然和你这个不同,但是也差不多,导师各种强调也不起作用,总会有人图方便。后来上了这种管理机制,就再也不是人与人的对抗,而是机器与人的对抗了,相信没有人会乐意傻傻地与机器对抗的。
好好学习,天天向上!
34楼2013-06-19 18:11:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gyty

木虫 (初入文坛)

满地打滚


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
35楼: Originally posted by zhangguangping at 2013-06-19 19:04:15
哈哈哈,你的这个脚本太牛了吧。你能把脚本分享一下吗?
另外,这个脚本是每个计算节点放一个,还是只在管理节点放一个?

谢谢你。...

哦,对了,这个脚本只需要在管理节点(排队系统 server 节点)放一个,计算节点不用做任何变动。另外,有一个需要注意的地方,我只针对 TORQUE 排队系统做了实现,不支持其他的排队系统。关于操作系统倒是没什么特殊的要求,一般的 Linux 系统应该都可以,需要 BASH 支持。
好好学习,天天向上!
39楼2013-06-22 19:05:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

Jasminer

铁杆木虫 (著名写手)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+1, 谢谢参与 2012-04-06 08:01:27
这种事情,老板如果不给出实际措施支持你,是没法解决的。
2楼2012-04-06 02:07:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

独唱团

金虫 (正式写手)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+1, 谢谢参与~ 2012-04-06 08:01:44
汗,没想到还有这么投机倒把的。技术层面的不懂,给你点非技术的建议,如果严重影响集群正常运行,劝说无效的话,你就得跟你们课题组负责人讲一下了。他应该会给各导师说一下这个情况,让学生不要再这么做。考虑到有些人表面一套背地一套,肯定会继续我行我素,那你就继续向上提意见。直到你们负责人拿出个处罚措施,比如限制登录多少天之类的。
如果没有影响到正常运行,那就睁一只眼闭一只眼吧。
3楼2012-04-06 02:08:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
2楼: Originally posted by Jasminer at 2012-04-06 02:07:04:
这种事情,老板如果不给出实际措施支持你,是没法解决的。

谢谢支招!
弘德明志博学笃行
4楼2012-04-06 07:16:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
3楼: Originally posted by 独唱团 at 2012-04-06 02:08:49:
汗,没想到还有这么投机倒把的。技术层面的不懂,给你点非技术的建议,如果严重影响集群正常运行,劝说无效的话,你就得跟你们课题组负责人讲一下了。他应该会给各导师说一下这个情况,让学生不要再这么做。考虑到 ...

谢谢支招!
弱弱的问一下,咱们是相识吗?
弘德明志博学笃行
5楼2012-04-06 07:17:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, 谢谢参与~ 2012-04-06 11:01:01
要通过脚本去自动化修改高斯的输入文件
里面就含有是否并行和需要的资源(资源和调度系统申请的资源数匹配)
也就是要编脚本程序

高斯算比较简单的
MS之类的就更难了
九州浩淼,任其东西,明日何在,但随我意。
7楼2012-04-06 09:25:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
6楼: Originally posted by yalefield at 2012-04-06 09:25:24:
不要指望老板做裁判。他才不关心什么公平不公平。他关心的是能不能出文章。
四策:
1、鼓动急于发论文、急于毕业者,砍杀盗火者;
2、有敢于顶风作案者,坐实证据;
3、做刀笔吏,先斩而不奏,杀一儆百;
4、 ...

文言性太强,很多意思看不懂啊!太自卑了。

不过大体意思看懂了些。觉得:
第一条:借刀杀人
第二条:严惩不贷
第三条:我行我素
第四条:狐假虎威

这四条都很厉害的,这样的结果就是关系弄僵了。
谢谢你这“四宝”!
弘德明志博学笃行
8楼2012-04-06 09:50:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzy870720z

荣誉版主 (文坛精英)

优秀版主优秀版主优秀版主优秀版主

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
zhangguangping: 金币+1, 谢谢支招! 2012-04-06 18:48:30
直接删除任务,哈哈,这招狠吧
博学、审问、慎思、明辨、笃学
9楼2012-04-06 10:28:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yalefield

金虫 (文坛精英)

老汉一枚

★ ★ ★ ★ ★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+3, 没必要这么全吧~。建议发到人文区供大家分享,呵呵 2012-04-06 11:03:53
zzy870720z: 金币+3, 老汉果然厉害,佩服佩服,找机会收藏一个 2012-04-06 12:06:44
内容已删除
10楼2012-04-06 10:41:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangguangping 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见