给老板五台服务器弄成一个集群,打算用网上说的Torque+maui弄一个。
安装就是按照《曙光机群配置笔记》里说的配置,除了NFS、QUOTOA和NIS没弄以外,SSH和MPI都配置好了。
我在两台笔记本hp6531s 和hp4436s上测试,6531是服务节点,4436是计算节点。版本是torque4.0.3和maui3.3.1
配置过程如下:
####################
5.Torque 和 maui 的安装
5.1Torquer 在管理节点 node00 上的安装
使用 root 权限
tar zxvf torque-2.4.6.tar.gz
cd torque-2.4.6
./configure -prefix=/usr/local/software/torque-2.4.6 -with-rcp=scp
make
make install
安装完毕,但是需要
make packages
产生到计算节点安装的文件,其中产生的几个 sh 文件中最重要的是
torque-package-mom-linux-x86_64.sh 和 torque-package-clients-linux-x86_64.sh
5.2Torque 在管理节点上的配置
5.2.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
export MAUI=/usr/local/software/maui-3.3.1
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin
else
PATH=$PATH:$TORQUE/bin:$MAUI/bin
fi
这样使得 Torque 成为每一个用户的默认配置
其中/usr/local/software/ maui-3.3.1 是下面将要装的 maui 的安装目录
5.2.2
source /etc/profile
使环境变量生效
5.2.3
为 torque 设置一个管理员,必须是普通的账户
在编译安装 Torque 的目录里面执行:
./torque.setup test
这样 test 就成了 Torque 的管理员,如果不设置管理员,没法运行 torque
5.2.4
在/var/spool/torque/server_priv/nodes 中添加计算节点的机器名,
其中 np 表示节点上可用的处
理单元数,类似:
node01
np=12
node02 np=12
node03 np=12
node04 np=12
node05 np=12
node06 np=12
node07 np=12
node08 np=12
node09 np=12
node10 np=12
node11 np=12
node12 np=12
5.2.5 创建作业队列
设置默认队列为 lab206
依次在命令行输入
qmgr -c "set server scheduling=true"
确定服务器使用排队策略
qmgr -c "create queue lab206 queue_type=execution"
创建队列 lab206
qmgr -c "set queue lab206 started=true"
使 lab206 队列中的任务可以执行
qmgr -c "set queue lab206 enabled=true"
使 lab206 队列能够接受新的任务
qmgr -c " set server default_queue= lab206 "
使 lab206 队列成为服务器的默认队列
如果不设置默认队列可以用:
qmgr -c " set server default_queue= NONE "
5.2.6
设定 pbs_mom 服务器:/var/spool/torque/server_name 为 node00
5.2.7
设定 mom config:/var/spool/torque/mom_priv/config 为 node00
(新建立文件)
5.2.8
启用 mom:
pbs_mom
5.2.9
重新 pbs 服务器:
qterm -t quick
pbs_server
5.2.10
检验配置参数
查看队列
qstat -q
该选项能看到刚刚创建的队列,应该是一个空队列,因为没有任务提交
查看服务节点配置
qmgr -c 'p s'
查看计算节点
pbsnodes -a
看到 nodes 文件里面写的节点的信息,但都处于 down 的状态,因为还没有配置计算节点。
5.3 Torque 在计算节点上的配置
5.3.1
在/etc/profilie 中追加
export TORQUE=/usr/local/software/torque-2.4.6
if [ "`id -u`" -eq 0 ]; then
PATH=$PATH:$TORQUE/bin:$TORQUE/sbin
else
PATH=$PATH:$TORQUE/bin
fi
5.3.2
source /etc/profile
使环境变量生效
5.4 在管理节点上安装 maui
5.4.1 安装
tar zxvf maui-3.3.1.tar.gz
cd maui-3.3.1
./configure -prefix=/usr/local/software/maui-3.3.1 -with-pbs=/usr/local/software/torque-2.4.6
make
make install
5.4.2 配置
修改/usr/local/maui/maui.cfg 文件
ADMIN1 root
5.4.3 启动 maui:
source /etc/profile 使刚才的设置重新生效
maui
maui 只需在服务节点上安装,计算节点上不必安装
5.5 计算节点上安装 torque
利用刚才生成的那两个重要的 sh 文件,
将这两个文件拷贝到 /home 下,然后,到各个计算节点上执行
torque-package-clients-linux-x86_64.sh --install
torque-package-mom-linux-x86_64.sh --install
5.6 计算节点上的配置
在各个计算节点创建文件/var/spool/torque/mom_priv/config,内容如下:
$pbsserver node00
$logevent 255
$usecp
node00: /home /home
并且在各个计算节点上将
/usr/local/software/torque-2.4.6/sbin/pbs_mom
写入/etc/init.d/after.local (新建)
并且修改权限 chmod 755 /etc/init.d/after.local
然后运行
/usr/local/software/torque-2.4.6/sbin/pbs_mom
这个时候到 node00 上运行 pbsnodes
就会看到所有的机器都启动了
这个时候回到 node00 上将下列内容添加到/etc/init.d/after.local
/usr/local/software/torque-2.4.6/sbin/pbs_server
/usr/local/software/maui-3.3.1/sbin/maui
chmod 755 /etc/init.d/after.local
########################
现在问题来了,
但是按照《曙》一文配置好了以后,pbsnodes命令显示计算节点stat:down。但是ssh可以无密码链接,也能ping通。
我又在计算节点上重新整体安装了torque以后,只启动pbs_mom,按照《曙》一文配置以后pbsnodes依然找不到计算节点。
并且主机上的提交的任务,没有进行排序,而是直接被挂了起来,qstat -a 显示 stat: Q。必须qrun强制执行才能跑,不能进行排队。这是因为还需要进行额外设置吗?
已经被折磨了一星期了,求解啊! |