24小时热门版块排行榜    

查看: 1732  |  回复: 7

ride138

新虫 (初入文坛)

[求助] CENTOS上安装Torque4.0.3找不到计算节点

给老板五台服务器弄成一个集群,打算用网上说的Torque+maui弄一个。
安装就是按照《曙光机群配置笔记》里说的配置,除了NFS、QUOTOA和NIS没弄以外,SSH和MPI都配置好了。
我在两台笔记本hp6531s 和hp4436s上测试,6531是服务节点,4436是计算节点。版本是torque4.0.3和maui3.3.1
配置过程如下:
####################
5.Torque 和 maui 的安装
5.1Torquer 在管理节点 node00 上的安装
使用 root 权限
tar zxvf torque-2.4.6.tar.gz
cd torque-2.4.6
./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp
make
make install
安装完毕,但是需要
make packages
产生到计算节点安装的文件,其中产生的几个 sh 文件中最重要的是
torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh
5.2Torque 在管理节点上的配置
5.2.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
export MAUI=/usr/local/software/maui-3.3.1
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin
else
PATH=$PATH:$TORQUE/bin:$MAUI/bin
fi
这样使得 Torque 成为每一个用户的默认配置
其中/usr/local/software/ maui-3.3.1 是下面将要装的 maui 的安装目录
5.2.2
source /etc/profile
使环境变量生效
5.2.3
为 torque 设置一个管理员,必须是普通的账户
在编译安装 Torque 的目录里面执行:
./torque.setup test
这样 test 就成了 Torque 的管理员,如果不设置管理员,没法运行 torque
5.2.4
在/var/spool/torque/server_priv/nodes 中添加计算节点的机器名,
其中 np 表示节点上可用的处
理单元数,类似:
node01
np=12
node02 np=12
node03 np=12
node04 np=12
node05 np=12
node06 np=12
node07 np=12
node08 np=12
node09 np=12
node10 np=12
node11 np=12
node12 np=12
5.2.5 创建作业队列
设置默认队列为 lab206
依次在命令行输入
qmgr -c "set server scheduling=true"
确定服务器使用排队策略
qmgr -c "create queue lab206 queue_type=execution"
创建队列 lab206
qmgr -c "set queue lab206 started=true"
使 lab206 队列中的任务可以执行
qmgr -c "set queue lab206 enabled=true"
使 lab206 队列能够接受新的任务
qmgr -c " set server default_queue= lab206 "
使 lab206 队列成为服务器的默认队列
如果不设置默认队列可以用:
qmgr -c " set server default_queue= NONE "
5.2.6
设定 pbs_mom 服务器:/var/spool/torque/server_name 为 node00
5.2.7
设定 mom config:/var/spool/torque/mom_priv/config 为 node00
(新建立文件)
5.2.8
启用 mom:
pbs_mom
5.2.9
重新 pbs 服务器:
qterm -t quick
pbs_server
5.2.10
检验配置参数
查看队列
qstat -q
该选项能看到刚刚创建的队列,应该是一个空队列,因为没有任务提交
查看服务节点配置
qmgr -c 'p s'
查看计算节点
pbsnodes -a
看到 nodes 文件里面写的节点的信息,但都处于 down 的状态,因为还没有配置计算节点。
5.3 Torque 在计算节点上的配置
5.3.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin
else
PATH=$PATH:$TORQUE/bin
fi
5.3.2
source /etc/profile
使环境变量生效
5.4 在管理节点上安装 maui
5.4.1 安装
tar zxvf maui-3.3.1.tar.gz
cd maui-3.3.1
./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6
make
make install
5.4.2 配置
修改/usr/local/maui/maui.cfg 文件
ADMIN1 root
5.4.3 启动 maui:
source /etc/profile 使刚才的设置重新生效
maui
maui 只需在服务节点上安装,计算节点上不必安装
5.5 计算节点上安装 torque
利用刚才生成的那两个重要的 sh 文件,
将这两个文件拷贝到 /home 下,然后,到各个计算节点上执行
torque-package-clients-linux-x86_64.sh --install
torque-package-mom-linux-x86_64.sh --install
5.6 计算节点上的配置
在各个计算节点创建文件/var/spool/torque/mom_priv/config,内容如下:
$pbsserver node00
$logevent 255
$usecp
node00: /home /home
并且在各个计算节点上将
/usr/local/software/torque-2.4.6/sbin/pbs_mom
写入/etc/init.d/after.local (新建)
并且修改权限 chmod 755 /etc/init.d/after.local
然后运行
/usr/local/software/torque-2.4.6/sbin/pbs_mom
这个时候到 node00 上运行 pbsnodes
就会看到所有的机器都启动了
这个时候回到 node00 上将下列内容添加到/etc/init.d/after.local
/usr/local/software/torque-2.4.6/sbin/pbs_server
/usr/local/software/maui-3.3.1/sbin/maui
chmod 755 /etc/init.d/after.local
########################


现在问题来了,
但是按照《曙》一文配置好了以后,pbsnodes命令显示计算节点stat:down。但是ssh可以无密码链接,也能ping通。
我又在计算节点上重新整体安装了torque以后,只启动pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到计算节点。
并且主机上的提交的任务,没有进行排序,而是直接被挂了起来,qstat -a 显示 stat: Q。必须qrun强制执行才能跑,不能进行排队。这是因为还需要进行额外设置吗?
已经被折磨了一星期了,求解啊!
回复此楼

» 收录本帖的淘帖专辑推荐

宝贝

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
ride138: 金币+10, 有帮助, 虽然没有解决,但还是非常感谢你 2012-05-31 11:01:48
在管理节点检查:
ps -A |grep pbs
看是否能够出来一个pbs_server的进程
ps -A |grep maui
看是否能够出来一个maui的进程

然后到计算节点
ps -A |grep pbs
看能否出来一个叫pbs_mom的进程

如果都有的话,在你安装都没有出错的前提下,那应该就是Torque和Maui没有交流。不清楚是不是这两个版本匹配不好。
弘德明志博学笃行
2楼2012-05-30 11:13:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ride138

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by zhangguangping at 2012-05-30 11:13:13
在管理节点检查:
ps -A |grep pbs
看是否能够出来一个pbs_server的进程
ps -A |grep maui
看是否能够出来一个maui的进程

然后到计算节点
ps -A |grep pbs
看能否出来一个叫pbs_mom的进程

如果都有的话 ...

请问你说的maui的原因指的是不能排队的原因,还是找不到计算节点的原因?现在maui确实有问题,我想make uninstall 卸载都卸载不了
3楼2012-05-30 12:19:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ride138

新虫 (初入文坛)

补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down
4楼2012-05-30 13:20:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nanoseer

金虫 (小有名气)


fegg7502: 金币+1, 鼓励交流 2013-01-30 08:53:31
这说明计算节点和主节点之间通讯有问题
5楼2013-01-29 16:24:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzr0427

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by ride138 at 2012-05-30 13:20:52
补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down

你是不是没有把计算结点加进去?pbs_home下面有一个文件可以指定所有的计算结点
6楼2013-03-29 16:08:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yaozhq

金虫 (小有名气)


csgt0: 金币+1, 谢谢 2013-10-22 09:25:40
引用回帖:
4楼: Originally posted by ride138 at 2012-05-30 13:20:52
补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down

首先确定所有机器的防火墙都是关闭的 很重要!!
如果感觉不安全 等调试好之后把相关端口加进许可列表
还有没有看到你配置HOSTS文件(/etc/hosts)例如
192.168.1.10  node001
192.168.1.11  node002
192.168.1.12  node003
192.168.1.13  node004
这样保证了机器间通过名字可以互相访问 可以ping node001或者ssh node001
7楼2013-10-19 13:57:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

maoshanjun

新虫 (正式写手)

楼主是怎么解决问题的?我也碰到了同样的问题
8楼2014-08-08 19:15:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 ride138 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[教师之家] 咨询一下,去江西高校工作和发展前景怎么样 +8 akslis2024 2024-11-17 10/500 2024-11-21 20:56 by kingkongking
[论文投稿] 研究光催化的,好中的三四区 50+5 sl.0117 2024-11-16 14/700 2024-11-21 20:39 by cqupenghao
[论文投稿] assigning reviewer一周就awaiting ECI decision是什么意思 +3 mollyzhang_2003 2024-11-21 5/250 2024-11-21 20:08 by mollyzhang_2003
[硕博家园] 博士毕业后将大论文拆分成小论文发表是否属于学术不端 +9 1362825417 2024-11-21 14/700 2024-11-21 19:04 by brblmd
[育儿交流] 分享一个蒜皮小事 +15 lxy12365492 2024-11-17 40/2000 2024-11-21 18:39 by lxy12365492
[论文投稿] 论文被拒,申诉求助 +4 南一学弟 2024-11-15 4/200 2024-11-21 18:06 by kanyechris
[论文投稿] 审稿人让补实验可以拒绝吗? 28+5 maxlhy 2024-11-20 9/450 2024-11-21 17:34 by dxcharlary
[论文投稿] 这是必须要润色吗 +5 hfuucjh 2024-11-20 8/400 2024-11-21 14:43 by 投必得科研顾问
[论文投稿] under review 50+7 星辰2022 2024-11-19 13/650 2024-11-21 14:39 by TopEdit
[论文投稿] 投NP和NC +7 seesunburst 2024-11-16 8/400 2024-11-21 14:38 by seesunburst
[考博] 24级双9硕钙钛矿材料方向求博导收留 +5 yfdsefx 2024-11-19 7/350 2024-11-21 12:43 by 随心就好啊
[论文投稿] 小论文求推荐哪个容易些 50+4 十月梦想 2024-11-17 9/450 2024-11-21 12:29 by blueearth171
[考博] 读博求助 10+3 姜大胖仙女 2024-11-18 4/200 2024-11-21 10:24 by 北京莱茵润色
[论文投稿] 请问JCR分区与WOS分区是一样的吗? 5+4 zhongyuan764 2024-11-19 7/350 2024-11-20 14:19 by cqupenghao
[基金申请] 2024 年国社科后期资助项目到什么阶段了? +5 strong409 2024-11-17 6/300 2024-11-20 08:56 by hhping1898
[基金申请] 海优出来了吗 +4 fjshida 2024-11-17 5/250 2024-11-20 08:12 by kudofaye
[有机交流] NBS溴代 100+3 风月客 2024-11-17 9/450 2024-11-19 18:15 by 风月客
[微米和纳米] 纳米分散 50+3 我是wink啊 2024-11-16 5/250 2024-11-19 09:15 by 我是wink啊
[论文投稿] 修改论文 +3 讨厌鬼lys 2024-11-15 5/250 2024-11-18 15:03 by TopEdit
[基金申请] 求助!请问海外博后依托内地单位申请青基的优劣? +3 2280999712 2024-11-15 20/1000 2024-11-18 08:50 by passion_43
信息提示
请填处理意见