24小时热门版块排行榜    

查看: 1128  |  回复: 5

as23p

木虫 (小有名气)

[求助] rocks5.5以及SGE队列管理问题已有1人参与

其实我也不太知道该怎么表述,所以还是先请看截图吧。。。

集群装的Rocks5.5,现在队列中数个节点的状态都是 au 或 E,但实际上,直接用 ssh 命令是可以登上那几个子节点的;所以似乎网络连接没问题,但通信有问题。。。所以想请教下,造成 au 的可能原因及解决办法

rocks5.5以及SGE队列管理问题
1.JPG
回复此楼
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

未岸亡灵

铁杆木虫 (著名写手)

暂时离开小木虫


【答案】应助回帖

★ ★ ★ ★ ★
感谢参与,应助指数 +1
as23p: 金币+5, 有帮助 2015-11-16 15:05:47
管理员权限qmod -c 加节点应该能解决E的状态,至于au状态,也可以用这个命令试一下,但最好是重启一下对应的计算节点
2楼2015-11-16 08:11:51
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

as23p

木虫 (小有名气)

引用回帖:
2楼: Originally posted by 未岸亡灵 at 2015-11-16 08:11:51
管理员权限qmod -c 加节点应该能解决E的状态,至于au状态,也可以用这个命令试一下,但最好是重启一下对应的计算节点

E状态确实解决了,但au不行呢,重启了也不行。。。顺便说下,我一时半会儿只能通过网络进行操作,机房在另外一个城市。。。
3楼2015-11-16 15:06:55
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

未岸亡灵

铁杆木虫 (著名写手)

暂时离开小木虫


【答案】应助回帖

引用回帖:
3楼: Originally posted by as23p at 2015-11-16 15:06:55
E状态确实解决了,但au不行呢,重启了也不行。。。顺便说下,我一时半会儿只能通过网络进行操作,机房在另外一个城市。。。...

那现在最简洁的办法就是重装计算节点,root下用命令 rocks set host boot comute-0-10 action=install 之后,再重启comute-0-10大约30min后即可完成对comute-0-10系统的重装。
当然,还有一种可能性是管理节点的SGE作业管理系统出问题了。就得具体问题具体分析了。
4楼2015-11-16 16:05:25
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

as23p

木虫 (小有名气)

引用回帖:
4楼: Originally posted by 未岸亡灵 at 2015-11-16 16:05:25
那现在最简洁的办法就是重装计算节点,root下用命令 rocks set host boot comute-0-10 action=install 之后,再重启comute-0-10大约30min后即可完成对comute-0-10系统的重装。
当然,还有一种可能性是管理节点的S ...

似乎是作业管理系统的问题。比如说 compute-0-1 吧,明明上面没任务却显示有13个在用。。。请问,怎么检查作业系统呢?
5楼2015-11-16 22:58:12
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

as23p

木虫 (小有名气)

引用回帖:
4楼: Originally posted by 未岸亡灵 at 2015-11-16 16:05:25
那现在最简洁的办法就是重装计算节点,root下用命令 rocks set host boot comute-0-10 action=install 之后,再重启comute-0-10大约30min后即可完成对comute-0-10系统的重装。
当然,还有一种可能性是管理节点的S ...

不用重装。似乎是子节点上的SGE服务未启动,登录上去运行了下:

$SGE_ROOT/default/common/sgeexecd start

这会儿似乎是没问题了,以观后效吧

谢谢您的帮助
6楼2015-11-19 11:38:23
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 as23p 的主题更新
信息提示
请填处理意见