24小时热门版块排行榜    

查看: 4240  |  回复: 34
【奖励】 本帖被评价22次,作者veryman增加金币 20
当前主题已经存档。

veryman

木虫 (正式写手)


[资源] 【原创】redhat5下用Torque2.3管理MS4.4任务队列

redhat5下用Torque2.3管理MS4.4任务队列
只发小木虫,转载请注明,谢谢。

1.HPMPI的安装
首先设置ssh使用RSA登陆,这方面不是本文的重点,大家google一搜就有很多,我就不细说了,就是一定要记得把用户home目录的权限改成700,否则连接时会要求输入密码,切记!!!
然后安装MS附带的HPMPI,rpm安装,很简单的。
2.MS4.4的安装
大概过程yhlllf的帖子已经说得很好了,我就不重复了。
3.torque安装、配置
下载torque-2.3.0.tar包,置于HOME下
        tar xvf torque-2.3.0.tar
        cd torque-2.3.0
        ./configure
        make
        make install
        ./torque.setup
注1:这一步后面的user必须得是非root用户。
注2:这一步之前要把/usr/local/sbin/加入到PATH中。
        make packages
将产生的 tpackages,torque-package-clients-linux-x86-64.sh和torque-package-mom-linux-x86-64.sh 拷贝到所有节点。
在所有节点上执行./torque-package-clients-linux-x86_64.sh --install和./torque-package-mom-linux-x86_64.sh --install,主节点上也执行一下。
编辑/var/spool/torque/server_priv/nodes
        格式为
        node1 np=8
        node2 np=8
        ……
编辑/var/spool/torque/server_name内容为主节点的名字。
在主节点启动pbs_server,pbs_sched,pbs_mom,直接输入这三个命令就可以了,在计算节点只要启动pbs_mom。
创建队列,使用root用户
        qmgr
        create queue students
        set queue students queue_type = Execution
        set queue students enabled = True
        set queue students started = True
注:这里不能使用它默认的那个队列,否者用ms提交任务时会出现权限问题,不知道为什么。
至此配置完成,可以使用qstat/qstat -Q/qstat -q/qstat -f等命令查看队列状态。
4配置MS网关
假设MS安装在默认位置,在HOME下
设置使用PBS管理作业:
        cd ~/Accelrys/MaterialsStudio44/etc/Gateway/config/
        ./configure queue -queuepath PBS/dsd_pbs -activate
编辑../../Gateway/root_default/dsd/conf/gw-info.sbd
设置参数queuingsystem=PBS/dsd_pbs
编辑../../Gateway/root_default/dsd/conf/gwparams.cfg
设置参数gw_queuingsystem=PBS
重启网关~/Accelrys/MaterialsStudio44/etc/Gateway/msgateway_control_18888 restart
5Windows下的设置:
在Sever Console下刷新服务器,确认服务器属性中的queue里有我们建立的students队列。
在提交计算任务里的queue选上students,就可以啦~~

PS:如果队列一直显示queued不开始,而确实服务器上又没有任务在计算的话,可以使用qrun jobid来开始任务。我第一次是这么开始,之后就不用了,不知道为什么。

[ Last edited by wuli8 on 2009-12-6 at 17:11 ]
回复此楼

» 收录本帖的淘帖专辑推荐

第一性原理计算辅助工具 Materials Studio 相关 Material Studio vasp

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

simone389

铜虫 (小有名气)


★★★★★ 五星级,优秀推荐

这么好的文章
3楼2009-04-13 22:34:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

imation

铁杆木虫 (正式写手)


★★★★★ 五星级,优秀推荐

正在摸索这个呢,希望能照猫画虎搞成,多谢
5楼2009-04-13 23:28:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nkwz

木虫 (小有名气)


★★★★★ 五星级,优秀推荐

sp
veryman  能简单介绍一下硬件环境么?
thx
6楼2009-04-14 07:56:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ccwhhs

铜虫 (正式写手)


★★★★★ 五星级,优秀推荐

但我看不懂。还不会弄。
8楼2009-04-16 16:23:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

★★★★★ 五星级,优秀推荐

貌似很高深

学习学习
9楼2009-04-16 23:58:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

qiangwxr

木虫 (小有名气)


★★★ 三星级,支持鼓励

有Windows下的任务队列程序教程吗?
10楼2009-04-19 10:04:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

★★★★★ 五星级,优秀推荐

优秀推荐
11楼2009-04-19 16:06:22
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wuchenwf

荣誉版主 (职业作家)


★★★★★ 五星级,优秀推荐

veryman 兄弟一向是  论坛的主力啊
12楼2009-04-20 19:16:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)


★★★ 三星级,支持鼓励

我是用maui+torque 2.4来做的(用torque 2.3也一样),但是好像一直有问题,而且很奇怪。有的时候是提交Dmol3任务出现权限问题,有的时候是提交castep任务出现权限问题(我的任务提交是设成需要密码的),在torque里把相应的用户加上也没有用。两台pbs_server设置一样的机子,ms版本也一样,ms用户设置和linux用户设置也一样,只是一台是单机,一台是集群,在集群上提交dmol3任务显示没有权限。而之前在单机上是dmol3可以,castep不行,后来把gateway删除了重新添加,单机上提交dmol3和castep又都可以了。有一段时间是从client上看Dmol3任务在运行,但是登录到服务器上去,却只有一个节点的一个进程在运行,qstat显示却都是busy. 不知道楼主用的时候有没有碰到这样的问题。

另外楼主的帖子作点小修改:

cd ~/Accelrys/MaterialsStudio44/etc/Gateway/config/
./configure queue -queuepath PBS/dsd_pbs -activate
编辑../root_default/dsd/conf/gw-info.sbd
设置参数queuingsystem=PBS/dsd_pbs
编辑../root_default/dsd/conf/gwparams.cfg
设置参数gw_queuingsystem=PBS (这个直接在gateway里修改也行)
重启网关~/Accelrys/MaterialsStudio44/etc/Gateway/gwrestart

[ Last edited by fuzp on 2009-4-28 at 09:20 ]
14楼2009-04-27 08:37:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fengya0785

银虫 (小有名气)


楼主,你用默认队列不行,可能有两个原因.
1、默认队列batch有默认的资源限制,你可以用qstat -Q -f 查看队列状态。然后用qmgr -c "unset queue batch xxxxx"解除限定
2、我测试的系统的RHEL4.4 和MS4.2,在windows端提交时会出现没有xxx用户的失败提示,后来在集群那建一个xxx用户就可以成功提交。
最后谢谢楼主放出方法~
15楼2009-05-06 13:37:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)


引用回帖:
Originally posted by fengya0785 at 2009-5-6 13:37:
楼主,你用默认队列不行,可能有两个原因.
1、默认队列batch有默认的资源限制,你可以用qstat -Q -f 查看队列状态。然后用qmgr -c "unset queue batch xxxxx"解除限定
2、我测试的系统的RHEL4.4 和MS4. ...

我同样是建了linux用户和ms用户,另外还加了queue用户(尽管去掉了queue用户验证),但是奇怪的是用同样的用户名提交任务,我可以,别人却提示权限问题,而有的时候是我出现权限问题,别人可以。把gateway删掉,重新添加,有时候就可以了,有时候还是不行。反正怪怪的。
我的是CentOS5.2+MS4.4+torque 2.4b1+maui3.2.6p21,torque2.36也是同样的问题。
另外在集群上,你们提交的Dmol3任务能正常运行么?我的是提交后客户端显示运行,但是实际上只有一个线程在运行。
16楼2009-05-08 03:47:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fengya0785

银虫 (小有名气)


引用回帖:
Originally posted by fuzp at 2009-5-8 03:47:


我同样是建了linux用户和ms用户,另外还加了queue用户(尽管去掉了queue用户验证),但是奇怪的是用同样的用户名提交任务,我可以,别人却提示权限问题,而有的时候是我出现权限问题,别人可以。把gateway删掉, ...

Dmol3 的任务我这也跑不了.
18楼2009-05-08 14:42:02
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)


我的单机版Dmol3能用,集群版的不行。torque论坛上倒是有解决办法,需要修改MS自带的脚本,但是因为我对脚本所知很少,所以看不明白。
19楼2009-05-09 01:00:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

physics206

新虫 (小有名气)


★★★ 三星级,支持鼓励

不错的资源哦,谢谢楼主
20楼2009-05-09 01:19:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hdh912

金虫 (正式写手)


请问老大 那里可以下载Torque2.3,我在百度上搜了下 ,没有。想请各位老大传一份给我,谢谢不胜感激。我的邮箱hdh912.student@sina.com
21楼2009-05-10 22:48:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bjtu

木虫 (小有名气)


★★★★★ 五星级,优秀推荐

niu 啊,谢谢楼主
22楼2009-05-10 23:26:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fengya0785

银虫 (小有名气)


引用回帖:
Originally posted by fuzp at 2009-5-9 01:00:
我的单机版Dmol3能用,集群版的不行。torque论坛上倒是有解决办法,需要修改MS自带的脚本,但是因为我对脚本所知很少,所以看不明白。

兄台可以把地址贴出来不?
23楼2009-05-11 15:14:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fengya0785

银虫 (小有名气)


引用回帖:
Originally posted by hdh912 at 2009-5-10 22:48:
请问老大 那里可以下载Torque2.3,我在百度上搜了下 ,没有。想请各位老大传一份给我,谢谢不胜感激。我的邮箱hdh912.student@sina.com

http://www.clusterresources.com/downloads/torque/
24楼2009-05-11 15:15:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)


http://www.clusterresources.com/ ... 05-July/001675.html

如果整明白了,请告诉大家怎么弄。
引用回帖:
Originally posted by fengya0785 at 2009-5-11 15:14:

兄台可以把地址贴出来不?

btw:我们讨论了半天,版主是不是也该奖励几个金币啊。:-)

[ Last edited by fuzp on 2009-5-14 at 00:29 ]
25楼2009-05-12 03:11:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hdh912

金虫 (正式写手)


请问 这一步之前要把/usr/local/sbin/加入到PATH中 这一步是什么意思哟
26楼2009-05-22 23:08:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)


因为一般torque的执行程序缺省会装在这个目录下,如果你的路径设置中没有
这个目录,系统就可能找不到这些程序。如果你不会加,就需要学点linux的东西。
引用回帖:
Originally posted by hdh912 at 2009-5-22 23:08:
请问 这一步之前要把/usr/local/sbin/加入到PATH中 这一步是什么意思哟

27楼2009-05-23 05:32:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)


我都怀疑这些回复的人中有几个真正用了torque+ms,怎么可能只有我和fengya0785出现问题呢。
29楼2009-06-09 17:13:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

bigcontinent

金虫 (正式写手)


★★★★★ 五星级,优秀推荐

多谢
30楼2009-06-10 16:43:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jianxian20

木虫 (正式写手)


引用回帖:
Originally posted by qiangwxr at 2009-4-19 10:04:
有Windows下的任务队列程序教程吗?

同问,急切需求!
31楼2009-07-26 14:09:12
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

awmc2008

至尊木虫 (文坛精英)


★★★★★ 五星级,优秀推荐

好资料,谢谢楼主。
32楼2009-07-27 14:48:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yangkunspace

铜虫 (小有名气)


★★★ 三星级,支持鼓励

安装完成 使用默认队列 果然没权限55
34楼2010-03-25 11:30:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
简单回复
wuli82楼
2009-04-13 12:01   回复  
 
2009-04-13 22:34   回复  
 
y1ding7楼
2009-04-14 16:24   回复  
 
zdhlover13楼
2009-04-24 22:46   回复  
 
hdh91217楼
2009-05-08 08:12   回复  
 
leigao28楼
2009-05-26 16:56   回复  
 
mingdong33楼
2009-10-16 11:19   回复  
 感谢分享
aylayl0835楼
2010-03-25 14:40   回复  
 
相关版块跳转 我要订阅楼主 veryman 的主题更新
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见