LINUX集群不能提交任务到计算节点问题
最近买了几台服务器做LINUX集群,成功安装ROCKS cluster和MS,Torque。pbsnodes查看节点的时候可以看到计算节点为free状态,但是提交任务只能提交到管理节点(管理节点也做计算节点用),当提交到计算节点的时候提交不上去,计算节点状态由free变为down。求大神~~ 返回小木虫查看更多
今日热帖
最近买了几台服务器做LINUX集群,成功安装ROCKS cluster和MS,Torque。pbsnodes查看节点的时候可以看到计算节点为free状态,但是提交任务只能提交到管理节点(管理节点也做计算节点用),当提交到计算节点的时候提交不上去,计算节点状态由free变为down。求大神~~ 返回小木虫查看更多
torque如果安装没有问题,提交较多的核数(比如一个节点20个核,就多于一个节点的核数,脚本里面指定节点、指定核数),qtart 看看任务运行的状态
谢谢~VASP可以指定任意节点,但是MS在指定节点计算方面好像不是太好。后来找了个高手帮忙给看的 发现是管理节点的外网名称需要禁用。
如果您要用MS软件,肯定是需要再MS相关配置文件中添加节点信息的,现在新版的加入了PBS,也只是能用到pbs队列,并不能真正嵌入PBS队列信息的。
请问楼主torque怎么在主节点和子节点安装好的?装完了torque6.1.2发现pbs_mom和psb的一系列软件都打不开
不好意思啊 刚看到 网上有linux下的torque安装教程,主节点安装,生成的文件拷贝到子节点,再改下地址就行了,有问题的话看torque/sched_logs查看日志。看你用什么计算软件了,在软件里可能也需要添加torque的信息。
连接不上的原因有很多,我把我当时遇到的一些问题和你说下吧:
1。连接不上的话最好到安装目录下的sched_logs查看日志,找下原因。
2。安装目录下的server_priv等文件中也需要对节点信息进行设置。
3。下面提到的环境变量和连接库修改我不确定,当时在网上找到的,直接就先照着做了。
#vi /etc/profile
加入以下几行:
# add by myself
export TORQUE=/usr/local/torque-6.0.3
export LD_LIBRARY_PATH=$TORQUE/lib
export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
保存退出
source /etc/profile
echo /usr/local/lib > /etc/ld.so.conf.d/torque.conf(将/usr/local/lib加入动态连接库,然后加下一步,否则会出现错误/usr/local/sbin/pbs_server: error while loading shared libraries: libtorque.so.2: cannot open shared object file: No such file or directory)
echo /usr/local/torque-6.1.0/lib/ > /etc/ld.so.conf.d/torque.conf
ldconfig
初始化 serverdb,可设置普通账户 yzf-ms为 torque 的管理员
./torque.setup yzf-ms
qterm(pbs_server运行则不能初始化,qterm为终止该服务)
./torque.setup yzf-ms
配置守护进程的信任关系
vi /var/spool/torque/mom_priv/config
写入:
$pbsserver cluster.hpc.org
$logevent 255
,