24小时热门版块排行榜    

查看: 1755  |  回复: 7

ride138

新虫 (初入文坛)

[求助] CENTOS上安装Torque4.0.3找不到计算节点

给老板五台服务器弄成一个集群,打算用网上说的Torque+maui弄一个。
安装就是按照《曙光机群配置笔记》里说的配置,除了NFS、QUOTOA和NIS没弄以外,SSH和MPI都配置好了。
我在两台笔记本hp6531s 和hp4436s上测试,6531是服务节点,4436是计算节点。版本是torque4.0.3和maui3.3.1
配置过程如下:
####################
5.Torque 和 maui 的安装
5.1Torquer 在管理节点 node00 上的安装
使用 root 权限
tar zxvf torque-2.4.6.tar.gz
cd torque-2.4.6
./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp
make
make install
安装完毕,但是需要
make packages
产生到计算节点安装的文件,其中产生的几个 sh 文件中最重要的是
torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh
5.2Torque 在管理节点上的配置
5.2.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
export MAUI=/usr/local/software/maui-3.3.1
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin
else
PATH=$PATH:$TORQUE/bin:$MAUI/bin
fi
这样使得 Torque 成为每一个用户的默认配置
其中/usr/local/software/ maui-3.3.1 是下面将要装的 maui 的安装目录
5.2.2
source /etc/profile
使环境变量生效
5.2.3
为 torque 设置一个管理员,必须是普通的账户
在编译安装 Torque 的目录里面执行:
./torque.setup test
这样 test 就成了 Torque 的管理员,如果不设置管理员,没法运行 torque
5.2.4
在/var/spool/torque/server_priv/nodes 中添加计算节点的机器名,
其中 np 表示节点上可用的处
理单元数,类似:
node01
np=12
node02 np=12
node03 np=12
node04 np=12
node05 np=12
node06 np=12
node07 np=12
node08 np=12
node09 np=12
node10 np=12
node11 np=12
node12 np=12
5.2.5 创建作业队列
设置默认队列为 lab206
依次在命令行输入
qmgr -c "set server scheduling=true"
确定服务器使用排队策略
qmgr -c "create queue lab206 queue_type=execution"
创建队列 lab206
qmgr -c "set queue lab206 started=true"
使 lab206 队列中的任务可以执行
qmgr -c "set queue lab206 enabled=true"
使 lab206 队列能够接受新的任务
qmgr -c " set server default_queue= lab206 "
使 lab206 队列成为服务器的默认队列
如果不设置默认队列可以用:
qmgr -c " set server default_queue= NONE "
5.2.6
设定 pbs_mom 服务器:/var/spool/torque/server_name 为 node00
5.2.7
设定 mom config:/var/spool/torque/mom_priv/config 为 node00
(新建立文件)
5.2.8
启用 mom:
pbs_mom
5.2.9
重新 pbs 服务器:
qterm -t quick
pbs_server
5.2.10
检验配置参数
查看队列
qstat -q
该选项能看到刚刚创建的队列,应该是一个空队列,因为没有任务提交
查看服务节点配置
qmgr -c 'p s'
查看计算节点
pbsnodes -a
看到 nodes 文件里面写的节点的信息,但都处于 down 的状态,因为还没有配置计算节点。
5.3 Torque 在计算节点上的配置
5.3.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin
else
PATH=$PATH:$TORQUE/bin
fi
5.3.2
source /etc/profile
使环境变量生效
5.4 在管理节点上安装 maui
5.4.1 安装
tar zxvf maui-3.3.1.tar.gz
cd maui-3.3.1
./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6
make
make install
5.4.2 配置
修改/usr/local/maui/maui.cfg 文件
ADMIN1 root
5.4.3 启动 maui:
source /etc/profile 使刚才的设置重新生效
maui
maui 只需在服务节点上安装,计算节点上不必安装
5.5 计算节点上安装 torque
利用刚才生成的那两个重要的 sh 文件,
将这两个文件拷贝到 /home 下,然后,到各个计算节点上执行
torque-package-clients-linux-x86_64.sh --install
torque-package-mom-linux-x86_64.sh --install
5.6 计算节点上的配置
在各个计算节点创建文件/var/spool/torque/mom_priv/config,内容如下:
$pbsserver node00
$logevent 255
$usecp
node00: /home /home
并且在各个计算节点上将
/usr/local/software/torque-2.4.6/sbin/pbs_mom
写入/etc/init.d/after.local (新建)
并且修改权限 chmod 755 /etc/init.d/after.local
然后运行
/usr/local/software/torque-2.4.6/sbin/pbs_mom
这个时候到 node00 上运行 pbsnodes
就会看到所有的机器都启动了
这个时候回到 node00 上将下列内容添加到/etc/init.d/after.local
/usr/local/software/torque-2.4.6/sbin/pbs_server
/usr/local/software/maui-3.3.1/sbin/maui
chmod 755 /etc/init.d/after.local
########################


现在问题来了,
但是按照《曙》一文配置好了以后,pbsnodes命令显示计算节点stat:down。但是ssh可以无密码链接,也能ping通。
我又在计算节点上重新整体安装了torque以后,只启动pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到计算节点。
并且主机上的提交的任务,没有进行排序,而是直接被挂了起来,qstat -a 显示 stat: Q。必须qrun强制执行才能跑,不能进行排队。这是因为还需要进行额外设置吗?
已经被折磨了一星期了,求解啊!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
ride138: 金币+10, 有帮助, 虽然没有解决,但还是非常感谢你 2012-05-31 11:01:48
在管理节点检查:
ps -A |grep pbs
看是否能够出来一个pbs_server的进程
ps -A |grep maui
看是否能够出来一个maui的进程

然后到计算节点
ps -A |grep pbs
看能否出来一个叫pbs_mom的进程

如果都有的话,在你安装都没有出错的前提下,那应该就是Torque和Maui没有交流。不清楚是不是这两个版本匹配不好。
弘德明志博学笃行
2楼2012-05-30 11:13:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ride138

新虫 (初入文坛)

引用回帖:
2楼: Originally posted by zhangguangping at 2012-05-30 11:13:13
在管理节点检查:
ps -A |grep pbs
看是否能够出来一个pbs_server的进程
ps -A |grep maui
看是否能够出来一个maui的进程

然后到计算节点
ps -A |grep pbs
看能否出来一个叫pbs_mom的进程

如果都有的话 ...

请问你说的maui的原因指的是不能排队的原因,还是找不到计算节点的原因?现在maui确实有问题,我想make uninstall 卸载都卸载不了
3楼2012-05-30 12:19:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ride138

新虫 (初入文坛)

补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down
4楼2012-05-30 13:20:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nanoseer

金虫 (小有名气)


fegg7502: 金币+1, 鼓励交流 2013-01-30 08:53:31
这说明计算节点和主节点之间通讯有问题
5楼2013-01-29 16:24:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zzr0427

新虫 (初入文坛)

引用回帖:
4楼: Originally posted by ride138 at 2012-05-30 13:20:52
补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down

你是不是没有把计算结点加进去?pbs_home下面有一个文件可以指定所有的计算结点
6楼2013-03-29 16:08:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yaozhq

金虫 (小有名气)


csgt0: 金币+1, 谢谢 2013-10-22 09:25:40
引用回帖:
4楼: Originally posted by ride138 at 2012-05-30 13:20:52
补充说明:
我把服务节点也设定为计算节点,pbsnodes显示只有服务节点上的计算节点可用,别的电脑上的计算节点都是stat : down

首先确定所有机器的防火墙都是关闭的 很重要!!
如果感觉不安全 等调试好之后把相关端口加进许可列表
还有没有看到你配置HOSTS文件(/etc/hosts)例如
192.168.1.10  node001
192.168.1.11  node002
192.168.1.12  node003
192.168.1.13  node004
这样保证了机器间通过名字可以互相访问 可以ping node001或者ssh node001
7楼2013-10-19 13:57:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

maoshanjun

新虫 (正式写手)

楼主是怎么解决问题的?我也碰到了同样的问题
8楼2014-08-08 19:15:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 ride138 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[论文投稿] Required Reviews Completed +8 驴哈哈 2024-12-20 9/450 2024-12-22 19:45 by nono2009
[论文投稿] MDPI投稿连续拒稿是什么原因?文章质量不好吗?还是其他原因? 2+9 多听多看多学 2024-12-17 18/900 2024-12-22 19:20 by jurkat.1640
[论文投稿] 挑数据是造假吗 +8 电话的建设 2024-12-21 8/400 2024-12-22 18:01 by beefly
[有机交流] 装柱干法上样 +4 刘松垚 2024-12-20 4/200 2024-12-22 14:24 by 88817753
[硕博家园] 有未就业的博士吗? +9 大发财树 2024-12-22 9/450 2024-12-22 13:36 by 25v11@c6
[硕博家园] 寻45-50的博士教授 +5 大发财树 2024-12-22 5/250 2024-12-22 13:31 by dh6ur@31
[教师之家] 咨询一下,是不是教授之间比较忌讳谈论文造假,因为可能很多人都是造假 +7 akslis2024 2024-12-21 8/400 2024-12-22 12:30 by Quakerbird
[考博] 读博的欲望达到了巅峰 +15 小丸九 2024-12-17 15/750 2024-12-22 10:30 by ming9871
[论文投稿] 投稿意见求助,没弄清回答的方向 8+4 moonlig 2024-12-18 4/200 2024-12-22 08:51 by steven_198377
[论文投稿] 投稿期刊 5+4 王丽媛西西西 2024-12-17 7/350 2024-12-22 04:44 by yudaoqian88
[硕博家园] 招聘博士 +7 大发财树 2024-12-18 8/400 2024-12-21 16:17 by yanjiaming
[考博] 华南理工大学 “新能源交叉创新团队--主动安全”课题组招收海外联合培养博士生 +4 hubble 2024-12-20 5/250 2024-12-21 16:16 by 那片叶落
[教师之家] 学校排名靠前发展好,最大的受益者是校领导还是普通老师? +6 akslis2024 2024-12-17 7/350 2024-12-21 11:22 by 凌晨一点393
[教师之家] 你们都降薪了吗? +10 红枣葡萄干 2024-12-18 10/500 2024-12-20 17:32 by 开心就好56
[论文投稿] 论文校稿 50+5 whale_full 2024-12-17 10/500 2024-12-20 16:39 by 北京莱茵润色
[考博] 东北石油大学博士招生两名 +4 13305437324 2024-12-15 4/200 2024-12-20 12:30 by 一路禅修
[论文投稿] 求推荐5分二区以上肿瘤接受生信结合实验的期刊。。。 +3 lice_1987 2024-12-17 6/300 2024-12-19 17:01 by Andy_124
[考博] 有未就业的博士吗 +4 大发财树 2024-12-17 4/200 2024-12-18 14:13 by 她在学习
[基金申请] 网传董晨院士涉嫌24篇论文造假,本人回应:非恶意造假 +6 babu2015 2024-12-17 6/300 2024-12-18 08:46 by llhljsy
[论文投稿] 申博 +3 翟某人 2024-12-16 3/150 2024-12-17 09:24 by xs74101122
信息提示
请填处理意见