24小时热门版块排行榜    

CyRhmU.jpeg
查看: 1551  |  回复: 5
【奖励】 本帖被评价4次,作者onesupeng增加金币 3.4
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

[资源] 【原创】并行平台构建与管理[10]:强行删除pbs作业方式

PBS作业管理系统在运行过程中,有的作业用qdel已经不能删除,甚至有的作业已经执行完毕,但是qstat中的job号没有消失,实际上还占用资源,有点类似占着茅厕不便便一样,感觉很不爽。
这样的情况可以用root身份,将/var/spool/PBS/server_priv/***(*** JOBID.JB and JOBID.SC)删除,然后重起pbs,但是如果直接用 service pbs restart 的话,所有作业将重新执行,这样可能对某些用户产生不良影响,因此google了一下,方法是重起pbs_sched和pbs_server。重起这玩艺就有讲究了,对应我的情况,我在/etc/init.d/做了个pbs_sched的文件,并chmod 777 pbs_sched。运行:
service pbs_sched restart
qterm -t quick
/usr/local/sbin/pbs_server
三个命令。其中/etc/init.d/pbs_sched的内容为
#!/bin/sh
#
# pbs_sched This script will start and stop the PBS Scheduler
#
# chkconfig: 345 95 5
# description: PBS is a batch versatile batch system for SMPs and clusters
#
# Source the library functions
. /etc/rc.d/init.d/functions
PBS_DAEMON=/usr/local/sbin/pbs_sched
export PBS_DAEMON
if [ -f /etc/sysconfig/pbs_sched ];then
   . /etc/sysconfig/pbs_sched
fi
# let see how we were called
case "$1" in
start)
  echo -n "Starting TORQUE Scheduler: "
  daemon $PBS_DAEMON
  RET=$?
  touch /var/lock/subsys/pbs_sched
  echo
  ;;
stop)
  echo -n "Shutting down TORQUE Scheduler: "
  killproc pbs_sched
  RET=$?
  rm -f /var/lock/subsys/pbs_sched
  echo
  ;;
status)
  status pbs_sched
  RET=$?
  ;;
restart)
  $0 stop
  $0 start
  ;;
reload)
  echo -n "Reloading pbs_sched: "
  killproc pbs_sched -HUP
  RET=$?
  echo
  ;;
*)
  echo "Usage: pbs_sched {start|stop|restart|status}"
  exit 1
esac
exit $RET
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

★★★★★ 五星级,优秀推荐

谢谢LZ分享~ 有些就是结束不了,我们等到集群重启时删除~
LZ可以不可以把你发的写到一个word中啊,我们下载也方便~
3楼2010-07-21 15:10:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 onesupeng 的主题更新
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复(可上传附件)
信息提示
请填处理意见