24小时热门版块排行榜    

查看: 1385  |  回复: 1

zhangguangping

木虫 (著名写手)

[交流] 使用Torque的注意undelivered目录了 已有1人参与

今天突然发现其中一个节点上的/目录使用量为100%,但是其他节点都是9%左右。很奇怪,我没有用root用户在/目录下面写东西。后来就到/目录下面利用du 命令挨着搜索看看“是谁动了我的奶酪”。结果最后结果让我大吃一惊。结果是Torque在“偷吃我的奶酪”,并且真凶是/var/spool/torque/undelivered,进入这个目录undelivered下面,发现是一些用户任务相关的文件。格式为*.OU(*为任务号),并且发现其中一个文件占用了44GB.
我到手册上查了一下,找到如下内容:
If for any reason the MOM daemon is unable to copy the output or error files to the submission directory, these files are instead copied to the undelivered directory also located in.

并且一旦任务发生了这个问题,用户不会得到输出文件的。

关于这个问题的产生原因,不是很清楚,目前也在寻找是不是这个问题和任务提交上之后不运行,必须用qrun才运行有关呢?

希望能够引起大家的讨论,引来高手的讲解。

回拷数据的时候采用的是rcp或者scp,这个时候需要节点之间无密码验证,因此需要保证从计算节点到管理节点能够无密码验证才行。

如果采用的是NFS系统的话,可以直接使用cp拷贝就行,就避免了这个问题,关于这个的设置可以参考手册$usecp的用法。

[ Last edited by zhangguangping on 2012-9-20 at 11:02 ]
回复此楼
弘德明志博学笃行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hnuzhoulin

金虫 (小有名气)

★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, 欢迎跟帖讨论~ 2012-04-11 12:52:18
没有碰到过这个问题,但是曾经碰到过在管理节点的message里面提示

Aug  9 09:19:09 compute-0-28.local pbs_mom: LOG_ERROR::sys_copy, command '/bin/cp -rp /opt/torque/spool/6375.cluster.atomsimlab.com.OU /home/dazao/V-He/V_pv/vacany/vasp.log' failed with status=1, giving up after 4 attempts
Aug  9 09:19:09 compute-0-28.local pbs_mom: LOG_ERROR::req_cpyfile, Unable to copy file /opt/torque/spool/6375.cluster.atomsimlab.com.OU to /home/dazao/V-He/V_pv/vacany/vasp.log

这个问题,而且出现很多,但是当时没有去计算节点查看是不是在那个目录下有文件,呵呵,好像也没理会。
2楼2012-04-11 12:38:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 zhangguangping 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见