24小时热门版块排行榜    

查看: 3581  |  回复: 6
【悬赏金币】回答本帖问题,作者sbkk将赠送您 100 个金币
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

sbkk

铁杆木虫 (著名写手)

[求助] torque-6.1.2 安装问题,子节点down状态如何启动已有2人参与

torque-6.1.2 安装问题,节点down状态如何启动

qterm -t quick
pbs_server
pbsnodes -a

发现子节点是 state = down
已关防火墙,配置正确,可ssh切换,节点服务都启动,还是出问题

主节点:

[root@calserver calserver]# for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i start; done
Starting pbs_server (via systemctl):                       [  OK  ]
Starting pbs_sched (via systemctl):                        [  OK  ]
Starting pbs_mom (via systemctl):                          [  OK  ]
Starting trqauthd (via systemctl):                         [  OK  ]

[root@calserver calserver]#  ps -ef | grep pbs
root       1160      1  0 01:18 ?        00:00:00 /usr/local/torque/sbin/pbs_server -F -d /var/spool/torque
root       3566      1  0 01:20 ?        00:00:00 /usr/local/torque/sbin/pbs_sched -d /var/spool/torque
root       3593      1  0 01:20 ?        00:00:00 /usr/local/torque/sbin/pbs_mom -F -d /var/spool/torque
root       3659   3428  0 01:21 pts/0    00:00:00 grep --color=auto pbs

[root@calserver calserver]# qnodes
calserver
     state = free
     power_state = Running
     np = 16
     ntype = cluster
     status = opsys=linux,uname=Linux calserver 3.10.0-862.14.4.el7.x86_64 #1 SMP Wed Sep 26 15:12:11 UTC 2018 x86_64,sessions=1593 2113 2237 2247 2501 3135 3185 3240,nsessions=8,nusers=2,idletime=256,totmem=5960692kb,availmem=4875732kb,physmem=3863544kb,ncpus=16,loadave=0.18,gres=,netload=89393,state=free,varattr= ,cpuclock=Fixed,macaddr=00:0c:29:a0:9b:d2,version=6.1.2,rectime=1540660913,jobs=
     mom_service_port = 15002
     mom_manager_port = 15003

calnode02
     state = down
     power_state = Running
     np = 4
     ntype = cluster
     mom_service_port = 15002
     mom_manager_port = 15003

calnode03
     state = down
     power_state = Running
     np = 12
     ntype = cluster
     mom_service_port = 15002
     mom_manager_port = 15003


计算节点:

[root@calnode02 ~]# systemctl status pbs_mom.service -l
● pbs_mom.service - TORQUE pbs_mom daemon
   Loaded: loaded (/usr/lib/systemd/system/pbs_mom.service; enabled; vendor preset: disabled)
   Active: active (running) since Sun 2018-10-28 01:18:50 CST; 10min ago
Main PID: 1041 (pbs_mom)
    Tasks: 11
   Memory: 101.8M
   CGroup: /system.slice/pbs_mom.service
           └─1041 /usr/local/torque/sbin/pbs_mom -F -d /var/spool/torque

Oct 28 01:29:05 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Could not contact any of the servers to send an update
Oct 28 01:29:05 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Status not successfully updated for 154 MOM status update intervals
Oct 28 01:29:09 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Could not contact any of the servers to send an update
Oct 28 01:29:09 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Status not successfully updated for 155 MOM status update intervals
Oct 28 01:29:14 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Could not contact any of the servers to send an update
Oct 28 01:29:14 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Status not successfully updated for 156 MOM status update intervals
Oct 28 01:29:18 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Could not contact any of the servers to send an update
Oct 28 01:29:18 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Status not successfully updated for 157 MOM status update intervals
Oct 28 01:29:22 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Could not contact any of the servers to send an update
Oct 28 01:29:22 calnode02 pbs_mom[1041]: LOG_ERROR::send_update_to_a_server, Status not successfully updated for 158 MOM status update intervals


参考安装方法
MS7、Torque在CentOS6.5上的安装-即MS计算集群搭建(原创) - 第一性原理 - MS - 小木虫论坛-学术科研互动平台  http://muchong.com/t-9836836-1-authorid-1192095
Centos7安装-多节点Torque - u012460749的博客 - CSDN博客  https://blog.csdn.net/u012460749/article/details/78583026


上面小木虫的安装方法里面
nfs分享ms 的目录为什么提示找不到

将 Accelrys 目录共享给其他计算节点:
# echo ‘/home/xxx/Accelrys *(rw,no_root_squash)’ >> /etc/exports
重启 nfs 服务:
$ sudo service nfs restart (centos7 : systemctl restart nfs.service)
b)  计算节点配置
创建共享文件夹 Accelrys,并挂载服务节点共享的 Accelrys:
$ cd
$ mkdir Accelrys
$ sudo mount –t nfs calserver:/home/xxx/Accelrys/ /home/xxx/Accelrys/
这一步找不到地址


配置开机自动挂载 Accelrys:
# echo ‘mount –t nfs calserver:/home/xxx/Accelrys/ /home/xxx/Accelrys/’ >> /etc/rc.d/rc.local
回复此楼
路能走多远,在于事先准备的有多好。不要看到希望而坚持,只有坚持才会看到希望。
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

Ice_TeaZ

铁虫 (初入文坛)

楼主解决了么,我的是 4.2.10的torque,就直接一个节点挂了所有的核,然后state一直是down,重启,关防火墙,qterm一系列的都试过了怎么都开不了,系统是centos7
6楼2018-11-03 09:29:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 7 个回答

sbkk

铁杆木虫 (著名写手)

主节点上pbs_server的log

[root@calserver calserver]# systemctl status pbs_server.service -l
● pbs_server.service - TORQUE pbs_server daemon
   Loaded: loaded (/usr/lib/systemd/system/pbs_server.service; enabled; vendor preset: disabled)
   Active: active (running) since Sun 2018-10-28 01:18:08 CST; 35min ago
Main PID: 1160 (pbs_server)
    Tasks: 12
   Memory: 1.6M
   CGroup: /system.slice/pbs_server.service
           └─1160 /usr/local/torque/sbin/pbs_server -F -d /var/spool/torque

Oct 28 01:18:08 calserver systemd[1]: Starting TORQUE pbs_server daemon...
Oct 28 01:18:08 calserver PBS_Server[1160]: LOG_ERROR::tcp_connect_sockaddr, Failed when trying to open tcp connection - connect() failed [rc = -2] [addr = 127.0.0.1:15003]
Oct 28 01:18:08 calserver PBS_Server[1160]: LOG_ERROR::sendHierarchyToNode, Could not send mom hierarchy to host calserver:15003
Oct 28 01:18:08 calserver PBS_Server[1160]: LOG_ERROR::tcp_connect_sockaddr, Failed when trying to open tcp connection - connect() failed [rc = 15096] [addr = 192.168.10.102:15003]
Oct 28 01:18:08 calserver PBS_Server[1160]: LOG_ERROR::sendHierarchyToNode, Could not send mom hierarchy to host calnode02:15003
Oct 28 01:18:08 calserver PBS_Server[1160]: LOG_ERROR::tcp_connect_sockaddr, Failed when trying to open tcp connection - connect() failed [rc = 15096] [addr = 192.168.10.103:15003]
Oct 28 01:18:08 calserver PBS_Server[1160]: LOG_ERROR::sendHierarchyToNode, Could not send mom hierarchy to host calnode03:15003
Oct 28 01:28:09 calserver pbs_server[1160]: Assertion failed, bad pointer in link: file "req_select.c", line 401
Oct 28 01:38:09 calserver pbs_server[1160]: Assertion failed, bad pointer in link: file "req_select.c", line 401
Oct 28 01:48:09 calserver pbs_server[1160]: Assertion failed, bad pointer in link: file "req_select.c", line 401
路能走多远,在于事先准备的有多好。不要看到希望而坚持,只有坚持才会看到希望。
2楼2018-10-28 01:57:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cj622

木虫 (正式写手)

【答案】应助回帖

感谢参与,应助指数 +1
意思是共享calserver节点的ms目录那一步没完成?那肯定是不行的,问题就处在这里了!为什么会找不到地址?检查下地址有没有写错呀,那个地址就是就是ms的安装地址,写对了应该能找到的呀

» 本帖已获得的红花(最新10朵)

呜哈哈
3楼2018-10-30 09:40:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sbkk

铁杆木虫 (著名写手)

送红花一朵
引用回帖:
3楼: Originally posted by cj622 at 2018-10-30 09:40:53
意思是共享calserver节点的ms目录那一步没完成?那肯定是不行的,问题就处在这里了!为什么会找不到地址?检查下地址有没有写错呀,那个地址就是就是ms的安装地址,写对了应该能找到的呀

对呀不知道为什么节点打不开

发自小木虫Android客户端
路能走多远,在于事先准备的有多好。不要看到希望而坚持,只有坚持才会看到希望。
4楼2018-10-30 13:03:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
不应助 确定回帖应助 (注意:应助才可能被奖励,但不允许灌水,必须填写15个字符以上)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[教师之家] 宋凯 +3 yexuqing 2024-05-14 3/150 2024-05-14 19:51 by cstiger555
[教师之家] 加上“青年”两个字,意义就变了 +8 zylfront 2024-05-13 9/450 2024-05-14 19:50 by weian123456
[教师之家] 相比过去,现在高校导师水平越来越高(可见招聘条件),研究生越来越差 +12 苏东坡二世 2024-05-11 16/800 2024-05-14 19:27 by 毛meiqi
[教师之家] 今天才知道硕士考进大专比博士进本科工资高得多 +3 ZHONGWU_U 2024-05-14 4/200 2024-05-14 18:40 by 起个新名字好难
[考博] 寻找高分子领域博导 +4 小政雅图 2024-05-14 4/200 2024-05-14 17:07 by shengwenbo
[硕博家园] 29 岁去读一个双非学校机械工程的博士 还有前途吗 +15 funaizheng 2024-05-09 18/900 2024-05-14 16:05 by 安塔瓦拉多
[基金申请] 评审规则突发奇想 +15 平凡冰雪花 2024-05-13 16/800 2024-05-14 16:04 by tbqsyb
[教师之家] 谁要做个人网站,可以交流啊! +6 hjc404 2024-05-14 12/600 2024-05-14 15:27 by wjykycg
[论文投稿] 投稿竟然倒在了Scientific Reports上。 +11 lizhengke06 2024-05-10 13/650 2024-05-14 13:17 by lyfbangong
[基金申请] 12个本子最多让给1a2b +12 地球e村长 2024-05-13 15/750 2024-05-14 13:10 by blueearth171
[教师之家] 南京林业大学老师首聘期考核不过,服药自杀 +22 babu2015 2024-05-12 25/1250 2024-05-14 12:34 by yexuqing
[基金申请] E06送审了吗? +8 edge099 2024-05-08 10/500 2024-05-13 20:40 by caijingyong
[硕博家园] 矿大本-中科大硕(推免)-24年科研助理求职-方向不限 +9 Kelaizhang 2024-05-08 17/850 2024-05-13 19:42 by LittleBush
[考研] 求考研导师(24年底我才考,材料类,提前联系) +4 笑笑宝公主 2024-05-12 5/250 2024-05-13 16:10 by 356169183
[找工作] 985博士毕业,前几天通过了河南省科学院下面一个所的面试,值得去吗? +13 wendao_2016 2024-05-07 20/1000 2024-05-13 15:42 by 3001160025
[基金申请] NSFC函评几月几日截止提交评审意见? +9 瞬息宇宙 2024-05-11 9/450 2024-05-12 19:53 by 20081002
[考博] 矿大本-中科大硕(推免)-24年科研助理求职-方向不限 +6 Kelaizhang 2024-05-08 8/400 2024-05-12 12:50 by Kelaizhang
[催化] 齿球形催化剂的尺寸 +3 anndy1971 2024-05-08 5/250 2024-05-11 23:57 by 596699273
[考博] 25光催化申博 +3 wjtab 2024-05-08 5/250 2024-05-09 08:26 by 安塔瓦拉多
[硕博家园] 学术会议PPT +10 Ken_Hu 2024-05-07 10/500 2024-05-09 07:41 by 诸葛莫莫
信息提示
请填处理意见