24小时热门版块排行榜    

查看: 4202  |  回复: 41
本帖产生 1 个 计算强帖 ,点击这里进行查看

yalefield

金虫 (文坛精英)

老汉一枚


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
19楼: Originally posted by 风间的记忆 at 2012-04-06 16:14:05:
学量化屈才了~
建议去做公务员

俺不是学量化的。
俺只是从屋顶观察量化。
俺也从屋顶观察其他。如路人、打酱油的、新诗、高铁、厚黑、南海、波黑、皇马、小牛、换苏伟等。
21楼2012-04-06 18:04:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xztjhs

铁虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
一群强人啊!!!

可以先限制一下SSH登录试试。
非专业,更专注
22楼2012-04-06 23:28:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
我觉得实际矛盾看来还是资源不够,找老板加钱买机器吧,要不买计算服务吧,嘿嘿。
23楼2012-04-06 23:53:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
23楼: Originally posted by zouming1979 at 2012-04-06 23:53:54:
我觉得实际矛盾看来还是资源不够,找老板加钱买机器吧,要不买计算服务吧,嘿嘿。

一语道破问题!
不过即使买了新资源,也还是不够用。因为有多少资源,就有多大的任务在等着,绝对不会只要想算东西,就有空闲资源在等着。那样的话,资源就是没有充分利用。所以排队还是需要的。因此,这种投机倒把还是会出现的。
弘德明志博学笃行
24楼2012-04-07 00:26:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, ~~ 2012-04-07 16:30:25
cenwanglai: , 给个脚本大家学学? 2012-04-07 16:30:48
最好还是写脚本吧,监控状态,一旦违规就自动杀作业。
一提交就杀,基本上损失比较小,也没啥好闹的。自动被杀了几次,基本上就乖了,因为理亏呀。
如果运行了一段时间才杀,人家就有理了,会找麻烦的。
25楼2012-04-07 12:13:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
25楼: Originally posted by zouming1979 at 2012-04-07 12:13:38:
最好还是写脚本吧,监控状态,一旦违规就自动杀作业。
一提交就杀,基本上损失比较小,也没啥好闹的。自动被杀了几次,基本上就乖了,因为理亏呀。
如果运行了一段时间才杀,人家就有理了,会找麻烦的。

敢问高手这个脚本怎么写呢?能否赐教之?我们用的是Torque-2.4.6+maui-3.3.1,并且用的是节点间ssh免密码登陆。
存在隐患,有的时候两个任务会经常被分配到一个节点上,并且只有一个违规。

能不能杀掉任务之后,杀任务的脚本会通知torque和maui该任务已经结束,将资源收回去。以便让torque和maui将资源再次分配给别的任务用。
弘德明志博学笃行
26楼2012-04-07 16:03:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
27楼2012-04-07 16:31:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zouming1979

捐助贵宾 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
26楼: Originally posted by zhangguangping at 2012-04-07 16:03:37:
敢问高手这个脚本怎么写呢?能否赐教之?我们用的是Torque-2.4.6+maui-3.3.1,并且用的是节点间ssh免密码登陆。
存在隐患,有的时候两个任务会经常被分配到一个节点上,并且只有一个违规。

能不能杀掉任务之 ...

我只是提供一个思路,我这边没有现成的脚本可以提供。目前我们用的是lsf。torque+maui很久以前用过,现在基本上都忘了差不多。

第一步,建议周期性(30s以上)的检查一下作业系统上作业数和实际负载是否有差别。 比如作业管理系统分配四个slot,但是负载(loadavg)高于5或者6(留点余量),说明可能有作业超用资源或者有在作业管理系统监控以外的进程运行。(建议是至少违规2个周期以上才执行动作,避免误差。 不知道torque+maui是否命令可以获得实际负载,否则就只能自己去取了
第二步,检查违规节点上的进程情况,如果有非作业管理系统分配的用户进程,直接杀之。如果用户高负载的进程数大于分配数,可以直接杀进程,或者让作业管理系统杀作业。

杀掉用户进程之后,通常作业管理系统是会知道作业结束了
中间许多的细节的我们可以讨论如何获取,如果有兴趣的话

[ Last edited by zouming1979 on 2012-4-7 at 21:36 ]
28楼2012-04-07 21:05:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
28楼: Originally posted by zouming1979 at 2012-04-07 21:05:33:
我只是提供一个思路,我这边没有现成的脚本可以提供。目前我们用的是lsf。torque+maui很久以前用过,现在基本上都忘了差不多。

第一步,建议周期性(30s以上)的检查一下作业系统上作业数和实际负载是否 ...

谢谢!这个太复杂了。尤其对我们这种级别的用户而言!
弘德明志博学笃行
29楼2012-04-10 15:32:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

quanta

新虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
这种情况技术上总是可以想办法的,比如楼上说的巡视脚本。 然而真正难办的的人,如果,如果这个不守规矩的到老板那里诉苦加拍马,老板很可能会给予特权的(这种事以前是发生过的),而且通常一个人得逞之后会有更多的效法者,老板的态度也会早令夕改,特权用户会一天天增多,然后问题是没法解决的。  而且技术总会有漏洞的。所以管理员是个吃力不讨好的活。
对于这个问题,关键在于老板。 私底下说说警告一下,只有不是严重干扰集群运作一般就睁一眼闭一眼了。实在不行就全杀掉,然后向所有人通报说有一个技术故障(不要让人知道是你杀的),xx天内可能无法登录啥的,然后就有人来拍你马屁了,你心情好就帮着快点解决,他还会感谢你。
---对了,这个只是适用于小集群,小组。 如果是计算中心一类的大型集群还是得技术上尽可能去除漏洞,规则执行也得铁面冷血一些。

[ Last edited by quanta on 2012-4-11 at 22:37 ]
30楼2012-04-11 22:31:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangguangping 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见