24小时热门版块排行榜    

查看: 3016  |  回复: 16

zhangguangping

木虫 (著名写手)

[交流] 关于Troque提交任务需要用qrun才能运行的讨论 已有6人参与

Troque+Maui,一直用的很好,今天突然发现有的账户提交任务后,一直在排队,其实对那个账户来说是有资源可利用的。非得需要用qrun命令才能运行。我到小木虫上搜索了一下,发现也有相同的帖子,但是均未给出解决办法:
http://muchong.com/bbs/viewthread.php?tid=1799745
http://muchong.com/bbs/viewthread.php?tid=1272931
http://muchong.com/bbs/viewthread.php?tid=2717220

咱们板块的高手能不能给出解决办法呢?
回复此楼

» 收录本帖的淘帖专辑推荐

第一性原理

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

弘德明志博学笃行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

zhangguangping

木虫 (著名写手)

引用回帖:
5楼: Originally posted by ifmc1234 at 2012-04-03 21:37:01:
可有下文?有人几天前问起,没查出原因。不知道你们现在可有办法解决?

现在这个问题,在我这边越来越突出了。刚刚对新买的机器调试好之后,从来没发现这类问题。我把我们的旧机器一起追加到一起后,这个问题就开始了。尤其是整个服务器从来没关过。还有就是任务拥挤的时候,这个问题更是常常出现。我的猜测是:
1.可能通讯有问题,这个要求管理节点内存大点。我们管理节点是8GB的内存,4核,原来以为能够非常胜任这个管理任务。但是我经常发现内存被占满。
2.有可能是管理软件发现虽然计算节点核有空闲,但是内存等其他因素不合适。
3.可能是torque的一个缺点吧。

目前不知道怎么解决。并且我发现torque的mail-list中对于新版本反应这个问题的也不在少数。关键是我只能收这个list的邮件,不能给他们发送。老说我的邮件被拒绝。

但是,我们这边所谓的“堵塞”的任务,等上一阵子,自己会上去的。我估计我们的情况属于第2中猜测情况吧。

[ Last edited by zhangguangping on 2012-4-3 at 22:37 ]
弘德明志博学笃行
6楼2012-04-03 22:36:29
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

风间的记忆

铁杆木虫 (著名写手)

★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
dbb627: 金币+1, 欢迎交流 2012-03-16 11:23:14
我猜测啊
虽然我们是GE
大部分可能是资源虽然是空闲的
但有垃圾信息
比如内存和CPU被占用了
调度系统认为资源条件不够
QRUN是强制运行
即使开始运行
效率也不会高
清理垃圾试试
也可以重启。。。。
如果可能
看看为什么垃圾会产生
很大的可能是程序写的不好
九州浩淼,任其东西,明日何在,但随我意。
2楼2012-03-16 09:21:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
2楼: Originally posted by 风间的记忆 at 2012-03-16 09:21:55:
我猜测啊
虽然我们是GE
大部分可能是资源虽然是空闲的
但有垃圾信息
比如内存和CPU被占用了
调度系统认为资源条件不够
QRUN是强制运行
即使开始运行
效率也不会高
清理垃圾试试
也可以重启。。。。
如 ...

有这些可能。另外您说的最后一句程序写的不好,是指的上一次在该节点运行的程序写的不好吧?他们运行过后,没有做收尾工作,留下一些垃圾,导致调度系统认为条件不合适呢。
看来Troque调度系统检查的东西挺多,并不是说只要有资源,就可以往上提交。可能需要检查cup负载,内存等情况。

谢谢您的提醒!
弘德明志博学笃行
3楼2012-03-16 10:11:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)


dbb627: 金币+1, 欢迎交流 2012-03-16 11:23:38
引用回帖:
3楼: Originally posted by zhangguangping at 2012-03-16 10:11:50:
有这些可能。另外您说的最后一句程序写的不好,是指的上一次在该节点运行的程序写的不好吧?他们运行过后,没有做收尾工作,留下一些垃圾,导致调度系统认为条件不合适呢。
看来Troque调度系统检查的东西挺多, ...

不是检查挺多
而是必须检查CPU和内存。。。
任何调度系统都是这样的
九州浩淼,任其东西,明日何在,但随我意。
4楼2012-03-16 10:35:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ifmc1234

木虫 (著名写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
可有下文?有人几天前问起,没查出原因。不知道你们现在可有办法解决?
5楼2012-04-03 21:37:01
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xztjhs

铁虫 (小有名气)

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
zhangguangping: 金币+2, 看来是高手来了! 2012-04-04 15:50:40
建议qmgr -c "p s",然后把配置信息发出来看一下。

你说的这种情况个人认为有以下几种可能:

1、CPU未使用完,但是在资源池中的节点已被使用完,即资源不足、

2、存在死掉的任务未删除。

3、内存不足或一些其它的原因导致pbs_server、 pbs_sche、maui.d卡死、掉线或配置错误。

4、作业调度失败。
非专业,更专注
7楼2012-04-04 14:26:40
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhangguangping

木虫 (著名写手)

引用回帖:
7楼: Originally posted by xztjhs at 2012-04-04 14:26:40:
建议qmgr -c "p s",然后把配置信息发出来看一下。

你说的这种情况个人认为有以下几种可能:

1、CPU未使用完,但是在资源池中的节点已被使用完,即资源不足、

2、存在死掉的任务未删除。

3 ...

首先我觉得qmgr -c "p s"给出的信息应该不足以提供解决该问题的信息。我用的是Troque-2.4.6+maui-3.3.1

不过我还是把我的配置贴一下吧。静听高手指点!

#
# Create queues and set their attributes.
#
#
# Create and define queue AMBER
#
create queue AMBER
set queue AMBER queue_type = Execution
set queue AMBER resources_default.neednodes = amber
set queue AMBER acl_group_enable = True
set queue AMBER acl_groups = amber
set queue AMBER acl_group_sloppy = True
set queue AMBER enabled = True
set queue AMBER started = True
#
# Create and define queue MOLPRO
#
create queue MOLPRO
set queue MOLPRO queue_type = Execution
set queue MOLPRO resources_default.neednodes = molpro
set queue MOLPRO acl_group_enable = True
set queue MOLPRO acl_groups = molpro
set queue MOLPRO acl_group_sloppy = True
set queue MOLPRO enabled = True
set queue MOLPRO started = True
#
# Create and define queue TRANSIESTA
#
create queue TRANSIESTA
set queue TRANSIESTA queue_type = Execution
set queue TRANSIESTA resources_default.neednodes = transiesta
set queue TRANSIESTA acl_group_enable = True
set queue TRANSIESTA acl_groups = transiesta
set queue TRANSIESTA acl_group_sloppy = True
set queue TRANSIESTA enabled = True
set queue TRANSIESTA started = True
#
# Create and define queue OTHERS
#
create queue OTHERS
set queue OTHERS queue_type = Execution
set queue OTHERS resources_default.neednodes = others
set queue OTHERS acl_group_enable = True
set queue OTHERS acl_groups = others
set queue OTHERS acl_group_sloppy = True
set queue OTHERS enabled = True
set queue OTHERS started = True
#
# Create and define queue SIESTA
#
create queue SIESTA
set queue SIESTA queue_type = Execution
set queue SIESTA resources_default.neednodes = siesta
set queue SIESTA acl_group_enable = True
set queue SIESTA acl_groups = siesta
set queue SIESTA acl_group_sloppy = True
set queue SIESTA enabled = True
set queue SIESTA started = True
#
# Create and define queue GAUSSLAB206
#
create queue GAUSSLAB206
set queue GAUSSLAB206 queue_type = Execution
set queue GAUSSLAB206 resources_default.neednodes = gausslab206
set queue GAUSSLAB206 acl_group_enable = True
set queue GAUSSLAB206 acl_groups = gausslab206
set queue GAUSSLAB206 acl_group_sloppy = True
set queue GAUSSLAB206 enabled = True
set queue GAUSSLAB206 started = True
#
# Create and define queue GAUSSIAN
#
create queue GAUSSIAN
set queue GAUSSIAN queue_type = Execution
set queue GAUSSIAN resources_default.neednodes = gaussian
set queue GAUSSIAN acl_group_enable = True
set queue GAUSSIAN acl_groups = gaussian
set queue GAUSSIAN acl_group_sloppy = True
set queue GAUSSIAN enabled = True
set queue GAUSSIAN started = True
#
# Create and define queue DALTON
#
create queue DALTON
set queue DALTON queue_type = Execution
set queue DALTON resources_default.neednodes = dalton
set queue DALTON acl_group_enable = True
set queue DALTON acl_groups = dalton
set queue DALTON acl_group_sloppy = True
set queue DALTON enabled = True
set queue DALTON started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = node00
set server managers = zhanggp@node00
set server operators = zhanggp@node00
set server default_queue = NONE
set server log_events = 511
set server mail_from = adm
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server mom_job_sync = True
set server keep_completed = 300
set server next_job_number = 2438
弘德明志博学笃行
8楼2012-04-04 15:52:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ifmc1234

木虫 (著名写手)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
6楼: Originally posted by zhangguangping at 2012-04-03 22:36:29:
现在这个问题,在我这边越来越突出了。刚刚对新买的机器调试好之后,从来没发现这类问题。我把我们的旧机器一起追加到一起后,这个问题就开始了。尤其是整个服务器从来没关过。还有就是任务拥挤的时候,这个 ...

要是这样的话,那就人为释放一下主节点的内存试试。
有些问题还真是因地而异,奇了。
9楼2012-04-04 18:03:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xztjhs

铁虫 (小有名气)


小木虫: 金币+0.5, 给个红包,谢谢回帖
引用回帖:
8楼: Originally posted by zhangguangping at 2012-04-04 15:52:44:
首先我觉得qmgr -c "p s"给出的信息应该不足以提供解决该问题的信息。我用的是Troque-2.4.6+maui-3.3.1

不过我还是把我的配置贴一下吧。静听高手指点!

#
# Create queues and set their attri ...

我大概看了下你的配置文件,你应该对资源进行了详细的分组吧?

每个队列只能使用指定的计算节点资源。

是不是在你配置具体的资源的时候没有配置好?

下边我提供一个没有分多个队列的配置文件,你可以先试一下:
#
# Create queues and set their attributes.
#
#
# Create and define queue batch
#
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch resources_default.walltime = 01:00:00
set queue batch enabled = True
set queue batch started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = node1
set server managers = root@node1
set server operators = root@node1
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server mom_job_sync = True
set server keep_completed = 10
set server next_job_number = 1
非专业,更专注
10楼2012-04-04 22:58:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangguangping 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见