24小时热门版块排行榜    

查看: 1728  |  回复: 7

ride138

新虫 (初入文坛)

[求助] CENTOS上安装Torque4.0.3找不到计算节点

给老板五台服务器弄成一个集群,打算用网上说的Torque+maui弄一个。
安装就是按照《曙光机群配置笔记》里说的配置,除了NFS、QUOTOA和NIS没弄以外,SSH和MPI都配置好了。
我在两台笔记本hp6531s 和hp4436s上测试,6531是服务节点,4436是计算节点。版本是torque4.0.3和maui3.3.1
配置过程如下:
####################
5.Torque 和 maui 的安装
5.1Torquer 在管理节点 node00 上的安装
使用 root 权限
tar zxvf torque-2.4.6.tar.gz
cd torque-2.4.6
./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp
make
make install
安装完毕,但是需要
make packages
产生到计算节点安装的文件,其中产生的几个 sh 文件中最重要的是
torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh
5.2Torque 在管理节点上的配置
5.2.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
export MAUI=/usr/local/software/maui-3.3.1
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin
else
PATH=$PATH:$TORQUE/bin:$MAUI/bin
fi
这样使得 Torque 成为每一个用户的默认配置
其中/usr/local/software/ maui-3.3.1 是下面将要装的 maui 的安装目录
5.2.2
source /etc/profile
使环境变量生效
5.2.3
为 torque 设置一个管理员,必须是普通的账户
在编译安装 Torque 的目录里面执行:
./torque.setup test
这样 test 就成了 Torque 的管理员,如果不设置管理员,没法运行 torque
5.2.4
在/var/spool/torque/server_priv/nodes 中添加计算节点的机器名,
其中 np 表示节点上可用的处
理单元数,类似:
node01
np=12
node02 np=12
node03 np=12
node04 np=12
node05 np=12
node06 np=12
node07 np=12
node08 np=12
node09 np=12
node10 np=12
node11 np=12
node12 np=12
5.2.5 创建作业队列
设置默认队列为 lab206
依次在命令行输入
qmgr -c "set server scheduling=true"
确定服务器使用排队策略
qmgr -c "create queue lab206 queue_type=execution"
创建队列 lab206
qmgr -c "set queue lab206 started=true"
使 lab206 队列中的任务可以执行
qmgr -c "set queue lab206 enabled=true"
使 lab206 队列能够接受新的任务
qmgr -c " set server default_queue= lab206 "
使 lab206 队列成为服务器的默认队列
如果不设置默认队列可以用:
qmgr -c " set server default_queue= NONE "
5.2.6
设定 pbs_mom 服务器:/var/spool/torque/server_name 为 node00
5.2.7
设定 mom config:/var/spool/torque/mom_priv/config 为 node00
(新建立文件)
5.2.8
启用 mom:
pbs_mom
5.2.9
重新 pbs 服务器:
qterm -t quick
pbs_server
5.2.10
检验配置参数
查看队列
qstat -q
该选项能看到刚刚创建的队列,应该是一个空队列,因为没有任务提交
查看服务节点配置
qmgr -c 'p s'
查看计算节点
pbsnodes -a
看到 nodes 文件里面写的节点的信息,但都处于 down 的状态,因为还没有配置计算节点。
5.3 Torque 在计算节点上的配置
5.3.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin
else
PATH=$PATH:$TORQUE/bin
fi
5.3.2
source /etc/profile
使环境变量生效
5.4 在管理节点上安装 maui
5.4.1 安装
tar zxvf maui-3.3.1.tar.gz
cd maui-3.3.1
./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6
make
make install
5.4.2 配置
修改/usr/local/maui/maui.cfg 文件
ADMIN1 root
5.4.3 启动 maui:
source /etc/profile 使刚才的设置重新生效
maui
maui 只需在服务节点上安装,计算节点上不必安装
5.5 计算节点上安装 torque
利用刚才生成的那两个重要的 sh 文件,
将这两个文件拷贝到 /home 下,然后,到各个计算节点上执行
torque-package-clients-linux-x86_64.sh --install
torque-package-mom-linux-x86_64.sh --install
5.6 计算节点上的配置
在各个计算节点创建文件/var/spool/torque/mom_priv/config,内容如下:
$pbsserver node00
$logevent 255
$usecp
node00: /home /home
并且在各个计算节点上将
/usr/local/software/torque-2.4.6/sbin/pbs_mom
写入/etc/init.d/after.local (新建)
并且修改权限 chmod 755 /etc/init.d/after.local
然后运行
/usr/local/software/torque-2.4.6/sbin/pbs_mom
这个时候到 node00 上运行 pbsnodes
就会看到所有的机器都启动了
这个时候回到 node00 上将下列内容添加到/etc/init.d/after.local
/usr/local/software/torque-2.4.6/sbin/pbs_server
/usr/local/software/maui-3.3.1/sbin/maui
chmod 755 /etc/init.d/after.local
########################


现在问题来了,
但是按照《曙》一文配置好了以后,pbsnodes命令显示计算节点stat:down。但是ssh可以无密码链接,也能ping通。
我又在计算节点上重新整体安装了torque以后,只启动pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到计算节点。
并且主机上的提交的任务,没有进行排序,而是直接被挂了起来,qstat -a 显示 stat: Q。必须qrun强制执行才能跑,不能进行排队。这是因为还需要进行额外设置吗?
已经被折磨了一星期了,求解啊!
回复此楼

» 收录本帖的淘帖专辑推荐

宝贝

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
ride138: 金币+10, 有帮助, 虽然没有解决,但还是非常感谢你 2012-05-31 11:01:48
在管理节点检查:
ps -A |grep pbs
看是否能够出来一个pbs_server的进程
ps -A |grep maui
看是否能够出来一个maui的进程

然后到计算节点
ps -A |grep pbs
看能否出来一个叫pbs_mom的进程

如果都有的话,在你安装都没有出错的前提下,那应该就是Torque和Maui没有交流。不清楚是不是这两个版本匹配不好。
弘德明志博学笃行
2楼2012-05-30 11:13:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ride138

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by zhangguangping at 2012-05-30 11:13:13
在管理节点检查:
ps -A |grep pbs
看是否能够出来一个pbs_server的进程
ps -A |grep maui
看是否能够出来一个maui的进程

然后到计算节点
ps -A |grep pbs
看能否出来一个叫pbs_mom的进程

如果都有的话 ...

请问你说的maui的原因指的是不能排队的原因,还是找不到计算节点的原因?现在maui确实有问题,我想make uninstall 卸载都卸载不了
3楼2012-05-30 12:19:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ride138

新虫 (初入文坛)

补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down
4楼2012-05-30 13:20:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nanoseer

金虫 (小有名气)


fegg7502: 金币+1, 鼓励交流 2013-01-30 08:53:31
这说明计算节点和主节点之间通讯有问题
5楼2013-01-29 16:24:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzr0427

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by ride138 at 2012-05-30 13:20:52
补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down

你是不是没有把计算结点加进去?pbs_home下面有一个文件可以指定所有的计算结点
6楼2013-03-29 16:08:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yaozhq

金虫 (小有名气)


csgt0: 金币+1, 谢谢 2013-10-22 09:25:40
引用回帖:
4楼: Originally posted by ride138 at 2012-05-30 13:20:52
补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down

首先确定所有机器的防火墙都是关闭的 很重要!!
如果感觉不安全 等调试好之后把相关端口加进许可列表
还有没有看到你配置HOSTS文件(/etc/hosts)例如
192.168.1.10  node001
192.168.1.11  node002
192.168.1.12  node003
192.168.1.13  node004
这样保证了机器间通过名字可以互相访问 可以ping node001或者ssh node001
7楼2013-10-19 13:57:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

maoshanjun

新虫 (正式写手)

楼主是怎么解决问题的?我也碰到了同样的问题
8楼2014-08-08 19:15:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 ride138 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[硕博家园] 课题和专业一点都不相关怎么办 +7 imt4n9 2024-11-11 10/500 2024-11-15 01:55 by 成长虫
[考博] 随缘读博 一篇中科院一区Top 一篇中科院二区Top 两篇专利 +5 Ricoch4t 2024-11-13 14/700 2024-11-15 01:23 by Ricoch4t
[论文投稿] chemical science和advanced science哪个好一点 +5 yly150 2024-11-12 5/250 2024-11-15 01:09 by ca0yan9
[教师之家] 大学老师 +9 考研一路顺风 2024-11-13 11/550 2024-11-14 21:47 by EndNoted
[论文投稿] OE返修遇到expired +3 隔壁老王来了 2024-11-14 7/350 2024-11-14 20:46 by 隔壁老王来了
[教师之家] 北大教授何怀宏曾如此描述他的同行 +11 zju2000 2024-11-09 11/550 2024-11-14 18:14 by frks
[论文投稿] angew三个小修,返修过去已经20多天了没动静,有朋友遇到这种情况吗? +3 迟迟未到场 2024-11-14 3/150 2024-11-14 17:53 by TopEdit
[硕博家园] 奖学金评定太黑了 +27 超电正 2024-11-08 33/1650 2024-11-14 17:52 by 我乘着风
[基金申请] 博后面上太难了 +10 不安定因素 2024-11-14 12/600 2024-11-14 16:59 by passion_43
[有机交流] 同一个反应回流情况不同 20+3 1853846 2024-11-12 3/150 2024-11-14 15:42 by 太阳谷
[论文投稿] 职称论文 +8 xiaoqi_66 2024-11-09 10/500 2024-11-14 15:14 by nono2009
[教师之家] 处在人生职业的分水岭 +4 otani 2024-11-13 4/200 2024-11-14 14:17 by mddzwo
[基金申请] 76批博后基金 +3 feiyi3986 2024-11-14 3/150 2024-11-14 11:50 by puly
[基金申请] 第76批博士后面上大概什么时间公示 +6 探际者 2024-11-11 7/350 2024-11-14 10:06 by Foxicut88
[论文投稿] 核心期刊那个阶段最难 +3 公共茅斯 2024-11-11 3/150 2024-11-13 15:27 by 13333105938
[硕博家园] 如何看清华北大硕博的毕业论文 +6 2025lucky 2024-11-10 6/300 2024-11-12 22:46 by 楚扬长流
[论文投稿] 投稿求助 40+3 liukun11 2024-11-12 4/200 2024-11-12 19:13 by liukun11
[论文投稿] 论文接受后,编辑部发邮件提醒缺少附件 15+4 上善若水明泪 2024-11-10 4/200 2024-11-12 14:24 by 北京莱茵润色
[论文投稿] 爱思唯尔投稿系统里的通讯作者可以和文章里的通讯作者标注不同吗 +7 Omnissiah 2024-11-10 7/350 2024-11-12 14:07 by holypower
[考博] 985硕 电池方向考博 +3 物化w7wx 2024-11-08 5/250 2024-11-11 09:38 by 物化w7wx
信息提示
请填处理意见