24小时热门版块排行榜    

查看: 3154  |  回复: 12
【悬赏金币】回答本帖问题,作者wangxn06将赠送您 1 个金币

wangxn06

金虫 (正式写手)

[求助] 作业提交后一直等待,所有节点不知为什么都成 停机 状态(state = down)已有1人参与

在并行集群上调程序,也没有做错什么,不知为什么作业提交后一直在等待
qstat -an   
  ............Q
结果发现是所有节点都为停机状态:
[***@login01 ~]$ pbsnodes
comput01
     state = down
     np = 8
     ntype = cluster

comput02
     state = down
     np = 8
     ntype = cluster

comput03
     state = down
     np = 8
     ntype = cluster
......
comput45
     state = down
     np = 8
     ntype = cluster
是死机了吗?请教高手该怎么解决?有没有什么命令让系统节点恢复到free的状态?
回复此楼

» 收录本帖的淘贴专辑推荐

Linux相关

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

zhangguangping

木虫 (著名写手)

【答案】应助回帖

★ ★ ★
感谢参与,应助指数 +1
zzy870720z: 金币+3, 谢谢指教 2012-03-27 20:10:26
如果你使用的是Troque的话,那么使用root账户到管理节点运行:
qterm -t quick
pbs_server(如果这个命令不能用的话,那么就找到这个命令的位置,我的是/usr/local/software/torque-2.4.6/sbin,在你安装的torque下面。)

然后稍等再次运行pbsnodes看看问题解决没有。

如果不能解决问题,那么ssh到任何一个显示down的节点上运行:

ps -A|grep pbs
看一下有没有pbs的进程在运行
4969 ?        00:00:38 pbs_mom
如果返回如上的结果,表明计算节点是正常的。如果没有的话,那么用root在每一个计算节点上将pbs_mom启动起来:
pbs_mom
命令位置在各个计算节点的/usr/local/software/torque-2.4.6/sbin目录下
顺便检查一下是否将pbs_mom设置为开机自动启动(我怀疑很可能是你配置好了,没有做这个设置,然后重新启动过机器,计算节点的这个进程没有启动起来)
我的这个开机启动是做到了/etc/init.d/after.local文件里面,在里面添加一句
/usr/local/software/torque-2.4.6/sbin/pbs_mom
就能达到以后开机自动启动pbs_mom的目的。如果上面目录下面找不到after.local文件,那么就用root自己创建一个。并且修改文件的权限:
chmod 755 /etc/init.d/after.local

注意:以上的所有操作都是root权限的操作。

估计做完上面的操作,就能解决你的问题。如果还有问题,那么建议从头检查你对PBS的配置情况。
弘德明志博学笃行
2楼2012-03-27 10:35:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

【答案】应助回帖


感谢参与,应助指数 +1
dbb627: 金币+1, 欢迎交流 2012-03-30 08:57:34
有时候我发现也会出现这种情况,前一个计算任务完成后,有些节点自动down掉了,而pbs_mom又正在运行,这时我会用root到各个down掉的节点,/etc/init.d/pbs_mom restart一下,然后就正常了。
集中精力发文章
4楼2012-03-29 22:26:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

引用回帖:
2楼: Originally posted by zhangguangping at 2012-03-27 10:35:17:
如果你使用的是Troque的话,那么使用root账户到管理节点运行:
qterm -t quick
pbs_server(如果这个命令不能用的话,那么就找到这个命令的位置,我的是/usr/local/software/torque-2.4.6/sbin,在你安装的torque ...

guangping兄你好,请教下
qterm -t quick
pbs_server
是否是先运行下#qterm -t quick,回车,然后再输入pbs_server?
这个qterm -t quick是重启pbs_server的意思不?
谢谢guangping。
集中精力发文章
5楼2012-03-29 22:28:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

zhangguangping

木虫 (著名写手)


zzy870720z: 金币+1, 谢谢补充 2012-03-27 20:10:36
补充一下:还有一种可能就是你的网络出现了问题。
弘德明志博学笃行
3楼2012-03-27 10:36:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hnuzhoulin

金虫 (小有名气)

【答案】应助回帖

感谢参与,应助指数 +1
引用回帖:
5楼: Originally posted by 04nylxb at 2012-03-29 22:28:21:
guangping兄你好,请教下
qterm -t quick
pbs_server
是否是先运行下#qterm -t quick,回车,然后再输入pbs_server?
这个qterm -t quick是重启pbs_server的意思不?
谢谢guangping。

#qterm -t quick
是停掉pbs的相关服务

pbs_server 是启动torque在管理节点的进程
6楼2012-04-01 13:28:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

引用回帖:
6楼: Originally posted by hnuzhoulin at 2012-04-01 13:28:43:
#qterm -t quick
是停掉pbs的相关服务

pbs_server 是启动torque在管理节点的进程

收到,非常感谢
集中精力发文章
7楼2012-04-01 22:04:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
5楼: Originally posted by 04nylxb at 2012-03-29 22:28:21:
guangping兄你好,请教下
qterm -t quick
pbs_server
是否是先运行下#qterm -t quick,回车,然后再输入pbs_server?
这个qterm -t quick是重启pbs_server的意思不?
谢谢guangping。

你的这个引用回复我怎么没有收到呢?

hnuzhoulin说的对!
弘德明志博学笃行
8楼2012-04-02 21:20:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

04nylxb

木虫 (正式写手)

引用回帖:
8楼: Originally posted by zhangguangping at 2012-04-02 21:20:42:
你的这个引用回复我怎么没有收到呢?

hnuzhoulin说的对!

thank you very much,呵呵
集中精力发文章
9楼2012-04-03 00:22:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

future_wl

木虫 (著名写手)

引用回帖:
2楼: Originally posted by zhangguangping at 2012-03-27 10:35:17
如果你使用的是Troque的话,那么使用root账户到管理节点运行:
qterm -t quick
pbs_server(如果这个命令不能用的话,那么就找到这个命令的位置,我的是/usr/local/software/torque-2.4.6/sbin,在你安装的torque下 ...

你好,请问节点总是显示offline该怎么办?
我ps -A|grep pbs之后也能看到有pbs的进程,服务器端和客户端的pbs都restart过了,还不行。
谢谢!
未来就是现在
10楼2015-04-09 15:44:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 wangxn06 的主题更新
不应助 确定回帖应助 (注意:应助才可能被奖励,但不允许灌水,必须填写15个字符以上)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[有机交流] 三颈瓶加热 5+4 wzjwx888 2024-06-20 5/250 2024-06-27 11:32 by f1yfish
[论文投稿] 关于论文第一通讯作者的问题? +4 winsaint 2024-06-26 4/200 2024-06-27 11:12 by gancs7894
[有机交流] 大佬们,打的核磁氢谱与chemdraw预测的有偏差 +7 来了个 2024-06-26 7/350 2024-06-27 11:11 by wubiansiya
[硕博家园] 联培博士文章第一单位署名问题交流~ +10 橙成成c 2024-06-23 23/1150 2024-06-27 10:11 by 橙成成c
[硕博家园] 夏至,要不要硕博联谊 +6 我是王小帅 2024-06-21 8/400 2024-06-26 21:05 by zxw3578
[硕博家园] 回家两天,不想呆了 +7 368ghnf 2024-06-22 13/650 2024-06-26 19:07 by ZZZemmm
[基金申请] 国产期刊影响因子大于12的有20多个个了 +19 babu2015 2024-06-20 24/1200 2024-06-26 16:57 by deliciou
[硕博家园] 博士该不该读? +8 L1009225316 2024-06-25 8/400 2024-06-26 16:26 by huixiong0627
[基金申请] 青年基金E02口青基去年几个函评专家? +6 他山攻玉之石 2024-06-25 9/450 2024-06-26 15:09 by 他山攻玉之石
[基金申请] 要持续整治滥发“帽子”、“牌子”之风 +6 babu2015 2024-06-25 6/300 2024-06-26 14:52 by felicity6056
[教师之家] 神奇的中医 +8 水冰月月野兔 2024-06-24 10/500 2024-06-26 12:10 by lyfbangong
[基金申请] 今天能不能出来名单 +8 地理学1995 2024-06-25 10/500 2024-06-26 09:46 by msjy
[有机交流] 过柱子,产品,杂质在是 pe:ea=100:1 也一起出来? +5 w256 2024-06-25 5/250 2024-06-26 09:31 by 小木木cc
[基金申请] 厅级项目出校却没中 +13 Iwould 2024-06-23 20/1000 2024-06-26 06:14 by foolishmani
[基金申请] 基金申请书名称有变化 +5 xuel2011 2024-06-25 7/350 2024-06-26 00:07 by 老虎当猫养
[基金申请] 能看出是否上会了吗 +10 articlefan 2024-06-23 15/750 2024-06-25 16:05 by 请慎重修改昵称
[基金申请] 青年和面上,哪个上会难度更大 +12 今晚推荐22 2024-06-21 18/900 2024-06-24 11:08 by 半简体
[公派出国] 博士csc联培会看重第一学历学校层次吗 +4 也就这样 2024-06-23 4/200 2024-06-24 08:18 by 晓目崇
[有机交流] 生成亚胺的反应怎么能进行完全 +3 1369836 2024-06-23 3/150 2024-06-23 18:44 by hwqMSE
[博后之家] 在国内某高校做全职博士后2年,现在找到新的单位,出站或退站对新工作有什么影响? +10 nxplfcc 2024-06-20 10/500 2024-06-22 07:52 by 徐长安
信息提示
请填处理意见