24小时热门版块排行榜    

查看: 2109  |  回复: 14
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

suntao1982

木虫 (著名写手)

小木虫

[求助] torque + maui 的设置问题

最近做了一个集群,想使用torque和maui对集群进行管理,安装正常,但是在作业调度时出现问题。共有两个节点,在var/spool/torque/server-priv/nodes

node11  np=2
node12  np=2

maui.cfg设置如下
  NODEALLOCATIONPOLICY  MINRESOURCE
  JOBNODEMATCHPOLICY      EXACTNODE
  ENABLEMUITINODEJOBS     TRUE
  ENABLEMULTIREQJOBS      TRUE

提交作业,作业脚本为
#!/bin/bash
#PBS -N test1
#PBS -l nodes=2:ppn=1
#PBS -l mem=64MB
#PBS -l pmem=16MB
#PBS -j oe
#PBS -q students
提交作业后发现
tsun@node10:~> qstat -n

node10:
                                                                         Req'd  Req'd   Elap
Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time
-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----
369.node10           tsun     students test1              4565     2   2   64mb 24:00 R   --
   node12/1+node12/0


作业竟然在一个节点上运行,

修改脚本为
#!/bin/bash
#PBS -N test1
#PBS -l nodes=1:ppn=1
#PBS -l mem=64MB
#PBS -l pmem=16MB
#PBS -j oe
#PBS -q students

提交两个作业后发现
tsun@node10:~> qstat -n

node10:
                                                                         Req'd  Req'd   Elap
Job ID               Username Queue    Jobname          SessID NDS   TSK Memory Time  S Time
-------------------- -------- -------- ---------------- ------ ----- --- ------ ----- - -----
370.node10           tsun     students test2              4637     1   1    --  24:00 R   --
   node12/0
371.node10           tsun     students test2              4638     1   1    --  24:00 R   --
   node12/1
发现两个作业都在node12节点上。安装道理第一作业应该在node11和node12上各有一个作业,后面也是node11和node12上各有一个作业,应该是maui设置的原因。请问各位应该怎么设置呢?非常感谢你的帮助!
回复此楼
做中国人的化学!!!!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

静默太阳

新虫 (初入文坛)

引用回帖:
5楼: Originally posted by suntao1982 at 2011-10-30 09:29:59
NODEALLOCATIONPOLICY PRIORITY
NODECFG PRIORITYF='- JOBCOUNT'

使用这个即可,谢谢各位

你好,我想问一下,torque多节点并行需要注意什么问题吗?我的集群,一个节点运行时没有问题的,但是多个节点的话,就有问题,错误是:unalbe to copy file /var/spool/torque/spool/*.OU   no such file or directory
15楼2014-12-08 12:03:53
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 15 个回答

abbott

金虫 (著名写手)

不要用QQ问我东西

【答案】应助回帖

★ ★ ★
suntao1982(金币+2): 有的 2011-10-24 18:29:44
小红豆(金币+3): 谢谢,辛苦了 2011-10-30 10:37:51
NODEALLOCATIONPOLICY  MINRESOURCE  
这句还有别的选项么?
Chemistry[]==[]Chem[]is[]try!!!
2楼2011-10-24 07:45:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

abdoman

木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★
suntao1982(金币+2): 这个也没有问题,就是这样设置的。 2011-10-24 18:30:05
小红豆(金币+5): 谢谢,辛苦了 2011-10-30 10:38:02
1. 感觉你这个是pbs 的问题:
你的第二个任务为什么会投到node12上面?
因为集群认为你的node12 还有资源,所以把第二个任务投给了node12.

你的maui 指定了是下面这个没?
# Resource Manager Definition
#RMCFG[YOURservername] TYPE=PBS

你试试 node=2:ppn=2  看看情况怎么样!
Youcompleteme.
3楼2011-10-24 10:03:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hlzya

木虫 (小有名气)

【答案】应助回帖

★ ★ ★
suntao1982(金币+5): 我试一下!谢谢 2011-10-25 18:03:07
小红豆(金币+3): 谢谢,辛苦了 2011-10-30 10:38:19
BACKFILLPOLICY        BESTFIT
RESERVATIONPOLICY     CURRENTHIGHEST
PREEMPTIONPOLICY      REQUEUE
这个成吗?
4楼2011-10-24 21:34:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
信息提示
请填处理意见