24小时热门版块排行榜    

查看: 4245  |  回复: 34
【奖励】 本帖被评价22次,作者veryman增加金币 20
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

veryman

木虫 (正式写手)


[资源] 【原创】redhat5下用Torque2.3管理MS4.4任务队列

redhat5下用Torque2.3管理MS4.4任务队列
只发小木虫,转载请注明,谢谢。

1.HPMPI的安装
首先设置ssh使用RSA登陆,这方面不是本文的重点,大家google一搜就有很多,我就不细说了,就是一定要记得把用户home目录的权限改成700,否则连接时会要求输入密码,切记!!!
然后安装MS附带的HPMPI,rpm安装,很简单的。
2.MS4.4的安装
大概过程yhlllf的帖子已经说得很好了,我就不重复了。
3.torque安装、配置
下载torque-2.3.0.tar包,置于HOME下
        tar xvf torque-2.3.0.tar
        cd torque-2.3.0
        ./configure
        make
        make install
        ./torque.setup
注1:这一步后面的user必须得是非root用户。
注2:这一步之前要把/usr/local/sbin/加入到PATH中。
        make packages
将产生的 tpackages,torque-package-clients-linux-x86-64.sh和torque-package-mom-linux-x86-64.sh 拷贝到所有节点。
在所有节点上执行./torque-package-clients-linux-x86_64.sh --install和./torque-package-mom-linux-x86_64.sh --install,主节点上也执行一下。
编辑/var/spool/torque/server_priv/nodes
        格式为
        node1 np=8
        node2 np=8
        ……
编辑/var/spool/torque/server_name内容为主节点的名字。
在主节点启动pbs_server,pbs_sched,pbs_mom,直接输入这三个命令就可以了,在计算节点只要启动pbs_mom。
创建队列,使用root用户
        qmgr
        create queue students
        set queue students queue_type = Execution
        set queue students enabled = True
        set queue students started = True
注:这里不能使用它默认的那个队列,否者用ms提交任务时会出现权限问题,不知道为什么。
至此配置完成,可以使用qstat/qstat -Q/qstat -q/qstat -f等命令查看队列状态。
4配置MS网关
假设MS安装在默认位置,在HOME下
设置使用PBS管理作业:
        cd ~/Accelrys/MaterialsStudio44/etc/Gateway/config/
        ./configure queue -queuepath PBS/dsd_pbs -activate
编辑../../Gateway/root_default/dsd/conf/gw-info.sbd
设置参数queuingsystem=PBS/dsd_pbs
编辑../../Gateway/root_default/dsd/conf/gwparams.cfg
设置参数gw_queuingsystem=PBS
重启网关~/Accelrys/MaterialsStudio44/etc/Gateway/msgateway_control_18888 restart
5Windows下的设置:
在Sever Console下刷新服务器,确认服务器属性中的queue里有我们建立的students队列。
在提交计算任务里的queue选上students,就可以啦~~

PS:如果队列一直显示queued不开始,而确实服务器上又没有任务在计算的话,可以使用qrun jobid来开始任务。我第一次是这么开始,之后就不用了,不知道为什么。

[ Last edited by wuli8 on 2009-12-6 at 17:11 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fengya0785

银虫 (小有名气)


楼主,你用默认队列不行,可能有两个原因.
1、默认队列batch有默认的资源限制,你可以用qstat -Q -f 查看队列状态。然后用qmgr -c "unset queue batch xxxxx"解除限定
2、我测试的系统的RHEL4.4 和MS4.2,在windows端提交时会出现没有xxx用户的失败提示,后来在集群那建一个xxx用户就可以成功提交。
最后谢谢楼主放出方法~
15楼2009-05-06 13:37:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 35 个回答

imation

铁杆木虫 (正式写手)


★★★★★ 五星级,优秀推荐

正在摸索这个呢,希望能照猫画虎搞成,多谢
5楼2009-04-13 23:28:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

nkwz

木虫 (小有名气)


★★★★★ 五星级,优秀推荐

sp
veryman  能简单介绍一下硬件环境么?
thx
6楼2009-04-14 07:56:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ccwhhs

铜虫 (正式写手)


★★★★★ 五星级,优秀推荐

但我看不懂。还不会弄。
8楼2009-04-16 16:23:36
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见