24小时热门版块排行榜    

查看: 1132  |  回复: 5
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

as23p

木虫 (小有名气)

[求助] rocks5.5以及SGE队列管理问题已有1人参与

其实我也不太知道该怎么表述,所以还是先请看截图吧。。。

集群装的Rocks5.5,现在队列中数个节点的状态都是 au 或 E,但实际上,直接用 ssh 命令是可以登上那几个子节点的;所以似乎网络连接没问题,但通信有问题。。。所以想请教下,造成 au 的可能原因及解决办法

rocks5.5以及SGE队列管理问题
1.JPG
回复此楼
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

未岸亡灵

铁杆木虫 (著名写手)

暂时离开小木虫


【答案】应助回帖

引用回帖:
3楼: Originally posted by as23p at 2015-11-16 15:06:55
E状态确实解决了,但au不行呢,重启了也不行。。。顺便说下,我一时半会儿只能通过网络进行操作,机房在另外一个城市。。。...

那现在最简洁的办法就是重装计算节点,root下用命令 rocks set host boot comute-0-10 action=install 之后,再重启comute-0-10大约30min后即可完成对comute-0-10系统的重装。
当然,还有一种可能性是管理节点的SGE作业管理系统出问题了。就得具体问题具体分析了。
4楼2015-11-16 16:05:25
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 6 个回答

未岸亡灵

铁杆木虫 (著名写手)

暂时离开小木虫


【答案】应助回帖

★ ★ ★ ★ ★
感谢参与,应助指数 +1
as23p: 金币+5, 有帮助 2015-11-16 15:05:47
管理员权限qmod -c 加节点应该能解决E的状态,至于au状态,也可以用这个命令试一下,但最好是重启一下对应的计算节点
2楼2015-11-16 08:11:51
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

as23p

木虫 (小有名气)

引用回帖:
2楼: Originally posted by 未岸亡灵 at 2015-11-16 08:11:51
管理员权限qmod -c 加节点应该能解决E的状态,至于au状态,也可以用这个命令试一下,但最好是重启一下对应的计算节点

E状态确实解决了,但au不行呢,重启了也不行。。。顺便说下,我一时半会儿只能通过网络进行操作,机房在另外一个城市。。。
3楼2015-11-16 15:06:55
已阅   关注TA 给TA发消息 送TA红花 TA的回帖

as23p

木虫 (小有名气)

引用回帖:
4楼: Originally posted by 未岸亡灵 at 2015-11-16 16:05:25
那现在最简洁的办法就是重装计算节点,root下用命令 rocks set host boot comute-0-10 action=install 之后,再重启comute-0-10大约30min后即可完成对comute-0-10系统的重装。
当然,还有一种可能性是管理节点的S ...

似乎是作业管理系统的问题。比如说 compute-0-1 吧,明明上面没任务却显示有13个在用。。。请问,怎么检查作业系统呢?
5楼2015-11-16 22:58:12
已阅   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见