24小时热门版块排行榜    

查看: 1417  |  回复: 13
本帖产生 1 个 计算强帖 ,点击这里进行查看

xiaowu787

木虫 (正式写手)

[交流] 【讨论】PC-cluster的管理 已有3人参与

PC-cluster的管理
实验室有几台计算机并行计算,一旦一台死机重启后,mpi,pbs就无法提交任务,出现这种情况一般怎么解决?谢谢
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

abbott

金虫 (著名写手)

不要用QQ问我东西

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
fegg7502(金币+1):多谢参与 2010-07-19 18:22:34
你太强大了  HPC的管理有很多方式
你说的太笼统 谁知道你要做什么!!
Chemistry[]==[]Chem[]is[]try!!!
2楼2010-07-16 23:19:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)

引用回帖:
Originally posted by abbott at 2010-07-16 23:19:42:
你太强大了  HPC的管理有很多方式
你说的太笼统 谁知道你要做什么!!

只要有一台计算机重启,整个系统就无法使用mpi了,我想问的是重启后是mpi需要重新挂载吗?具体要怎么操作?谢谢
3楼2010-07-17 10:03:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

onesupeng

金虫 (职业作家)

★ ★ ★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
fegg7502(金币+4, 计算强帖+1):多谢参与 2010-07-19 18:23:04
其实可能是你的pbs装的不是很好。可以重新启动pbs。用以下这种方法启动,可不影响正在运行的作业:

在/etc/init.d/做了个pbs_sched的文件,并chmod 777 pbs_sched。运行:
/sbin/service pbs_sched restart
qterm -t quick
/usr/local/sbin/pbs_server

三个命令。其中/etc/init.d/pbs_sched的内容为(针对你的具体情况,更改相应路径)
#!/bin/sh
#
# pbs_sched        This script will start and stop the PBS Scheduler
#
# chkconfig: 345 95 5
# description: PBS is a batch versatile batch system for SMPs and clusters
#
# Source the library functions
. /etc/rc.d/init.d/functions

PBS_DAEMON=/usr/local/sbin/pbs_sched
export PBS_DAEMON

if [ -f /etc/sysconfig/pbs_sched ];then
   . /etc/sysconfig/pbs_sched
fi

# let see how we were called
case "$1" in
        start)
                echo -n "Starting TORQUE Scheduler: "
                daemon $PBS_DAEMON
                RET=$?
                touch /var/lock/subsys/pbs_sched
                echo
                ;;
        stop)
                echo -n "Shutting down TORQUE Scheduler: "
                killproc pbs_sched
                RET=$?
                rm -f /var/lock/subsys/pbs_sched
                echo
                ;;
        status)
                status pbs_sched
                RET=$?
                ;;
        restart)
                $0 stop
                $0 start
                ;;
        reload)
                echo -n "Reloading pbs_sched: "
                killproc pbs_sched -HUP
                RET=$?
                echo
                ;;
        *)
                echo "Usage: pbs_sched {start|stop|restart|status}"
                exit 1
esac
exit $RET
长期招收博士生,参见http://fsl-unsw.com
4楼2010-07-18 14:13:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)

引用回帖:
Originally posted by onesupeng at 2010-07-18 14:13:48:
其实可能是你的pbs装的不是很好。可以重新启动pbs。用以下这种方法启动,可不影响正在运行的作业:

在/etc/init.d/做了个pbs_sched的文件,并chmod 777 pbs_sched。运行:
/sbin/service pbs_sched restart
...

[root@manage sbin]# service pbs_sched restart
Shutting down TORQUE Scheduler:                            [确定]
Starting TORQUE Scheduler:                                 [确定]
[root@manage sbin]# qterm -t quick
[root@manage sbin]# cd usr/local/sbin/
[root@manage sbin]# pbs_server
[root@manage sbin]#
按您说的操作了一遍,过程如上,不知有没有错误的地方,但是还是不能mpi.
谢谢,我想再问一下,一台机子已经重启了,mpi不能用了,该怎么恢复mpi?

[ Last edited by xiaowu787 on 2010-7-19 at 18:37 ]
5楼2010-07-19 18:14:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

onesupeng

金虫 (职业作家)

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
mingdong(金币+1):感谢交流! 2010-07-19 21:37:38
你们mpi怎么安装的,你讲一下。是不是只在服务器节点安装?机器重起要手动挂载?
长期招收博士生,参见http://fsl-unsw.com
6楼2010-07-19 20:59:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)

引用回帖:
Originally posted by onesupeng at 2010-07-19 20:59:56:
你们mpi怎么安装的,你讲一下。是不是只在服务器节点安装?机器重起要手动挂载?

具体的我不清楚,今天又试了一下,那台重启的计算机可以正常运行mpi,其他没重启的都不行。帮忙分析一下原因
mpirun -np 4 +任务,执行后没有如何反应任务提交不上去

[ Last edited by xiaowu787 on 2010-7-19 at 21:11 ]
7楼2010-07-19 21:04:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

onesupeng

金虫 (职业作家)


小木虫(金币+0.5):给个红包,谢谢回帖交流
那台重启的计算机可以正常运行mpi,其他没重启的都不行?

搞不懂你什么意思
长期招收博士生,参见http://fsl-unsw.com
8楼2010-07-19 21:47:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiaowu787

木虫 (正式写手)

引用回帖:
Originally posted by onesupeng at 2010-07-19 21:47:28:
那台重启的计算机可以正常运行mpi,其他没重启的都不行?

搞不懂你什么意思

问题就是出在哪里,那台重启的计算机现在可以正常运行mpi,其他没重启的现在都不行。
9楼2010-07-19 22:20:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

onesupeng

金虫 (职业作家)

没重启 什么?
长期招收博士生,参见http://fsl-unsw.com
10楼2010-07-19 22:23:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 xiaowu787 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 化学工程321分求调剂 +7 大米饭! 2026-03-15 7/350 2026-03-16 10:25 by 了了了了。。
[考研] 材料专硕306英一数二 +3 z1z2z3879 2026-03-16 3/150 2026-03-16 09:19 by Demonsssss
[考研] 326求调剂 +3 mlpqaz03 2026-03-15 3/150 2026-03-16 07:33 by Iveryant
[文学芳草园] 伙伴们,祝我生日快乐吧 +15 myrtle 2026-03-10 24/1200 2026-03-15 21:16 by 苏州_逗号
[考研] 中科院材料273求调剂 +3 yzydy 2026-03-15 3/150 2026-03-15 21:15 by ms629
[考研] 0703化学调剂,求各位老师收留 +7 秋有木北 2026-03-14 7/350 2026-03-15 17:30 by 小物理化学
[考研] 070305求调剂 +3 mlpqaz03 2026-03-14 4/200 2026-03-15 11:04 by peike
[考研] 复试调剂 +4 z1z2z3879 2026-03-14 5/250 2026-03-14 16:30 by JourneyLucky
[考研] 328,0703考生求调剂,一志愿为东北师范大学 +4 观素律 2026-03-09 5/250 2026-03-14 01:24 by JourneyLucky
[考研] 一志愿郑大070303,338分,求调剂 +4 dadawaf 2026-03-10 5/250 2026-03-14 01:20 by lsw010101
[考研] 材料专硕288分求调剂 一志愿211 +4 在家想你 2026-03-11 4/200 2026-03-13 22:49 by JourneyLucky
[考研] 332求调剂 +3 zjy101327 2026-03-11 6/300 2026-03-13 22:48 by JourneyLucky
[考研] 308求调剂 +5 是Lupa啊 2026-03-11 5/250 2026-03-13 22:13 by JourneyLucky
[考研] 336求调剂 +6 Iuruoh 2026-03-11 6/300 2026-03-13 22:06 by JourneyLucky
[考研] 0856材料与化工301求调剂 +5 奕束光 2026-03-13 5/250 2026-03-13 22:00 by 星空星月
[考研] 333求调剂 +3 球球古力 2026-03-11 3/150 2026-03-13 21:27 by JourneyLucky
[考研] 【0856】化学工程(085602)313 分,本科学科评估A类院校化学工程与工艺,诚求调剂 +7 小刘快快上岸 2026-03-11 7/350 2026-03-13 16:06 by ruiyingmiao
[考研] 土木第一志愿276求调剂,科研和技能十分丰富,求新兴方向的导师收留 +3 土木小天才 2026-03-12 3/150 2026-03-13 15:01 by JourneyLucky
[考研] 化工学硕306求调剂 +9 42838695 2026-03-12 9/450 2026-03-13 10:16 by houyaoxu
[考研] 数二英二309分请求调剂 +3 dtdxzxx 2026-03-09 4/200 2026-03-09 19:56 by yuningshan
信息提示
请填处理意见