| 查看: 1432 | 回复: 1 | ||||
zhangguangping木虫 (著名写手)
|
[交流]
使用Torque的注意undelivered目录了 已有1人参与
|
|
今天突然发现其中一个节点上的/目录使用量为100%,但是其他节点都是9%左右。很奇怪,我没有用root用户在/目录下面写东西。后来就到/目录下面利用du 命令挨着搜索看看“是谁动了我的奶酪”。结果最后结果让我大吃一惊。结果是Torque在“偷吃我的奶酪”,并且真凶是/var/spool/torque/undelivered,进入这个目录undelivered下面,发现是一些用户任务相关的文件。格式为*.OU(*为任务号),并且发现其中一个文件占用了44GB. 我到手册上查了一下,找到如下内容: If for any reason the MOM daemon is unable to copy the output or error files to the submission directory, these files are instead copied to the undelivered directory also located in. 并且一旦任务发生了这个问题,用户不会得到输出文件的。 关于这个问题的产生原因,不是很清楚,目前也在寻找是不是这个问题和任务提交上之后不运行,必须用qrun才运行有关呢? 希望能够引起大家的讨论,引来高手的讲解。 回拷数据的时候采用的是rcp或者scp,这个时候需要节点之间无密码验证,因此需要保证从计算节点到管理节点能够无密码验证才行。 如果采用的是NFS系统的话,可以直接使用cp拷贝就行,就避免了这个问题,关于这个的设置可以参考手册$usecp的用法。 [ Last edited by zhangguangping on 2012-9-20 at 11:02 ] |
» 收录本帖的淘帖专辑推荐
第一性原理杂 |
» 猜你喜欢
【修正版】单环用磁约束低速电子实验方案(简化版)
已经有0人回复
桂林理工大学物理学专业招收调剂,还有三个名额!!!
已经有22人回复
物理学I论文润色/翻译怎么收费?
已经有247人回复
考博自荐
已经有4人回复
山东大学第二批博士研究生招生
已经有0人回复
中国科学院东莞材料科学与技术研究所-2026年博士招生-吴昊研究员-磁学与自旋电子学
已经有0人回复
《电磁学》教材推荐
已经有1人回复
【急招】合肥工大核聚变材料计算方向2026级工程博士生
已经有4人回复
大豆异黄酮分离
已经有0人回复
湖南大学材料学院急招2026年博士生,临时增加一名博士联培指标
已经有10人回复
天津理工大学晶体材料全国重点实验室刘红军教授课题组招收博士生1-2名
已经有0人回复

hnuzhoulin
金虫 (小有名气)
- 应助: 7 (幼儿园)
- 金币: 1202.8
- 红花: 6
- 帖子: 265
- 在线: 49小时
- 虫号: 778409
- 注册: 2009-05-24
- 性别: GG
- 专业: 计算机应用技术
★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, 欢迎跟帖讨论~ 2012-04-11 12:52:18
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, 欢迎跟帖讨论~ 2012-04-11 12:52:18
|
没有碰到过这个问题,但是曾经碰到过在管理节点的message里面提示 Aug 9 09:19:09 compute-0-28.local pbs_mom: LOG_ERROR::sys_copy, command '/bin/cp -rp /opt/torque/spool/6375.cluster.atomsimlab.com.OU /home/dazao/V-He/V_pv/vacany/vasp.log' failed with status=1, giving up after 4 attempts Aug 9 09:19:09 compute-0-28.local pbs_mom: LOG_ERROR::req_cpyfile, Unable to copy file /opt/torque/spool/6375.cluster.atomsimlab.com.OU to /home/dazao/V-He/V_pv/vacany/vasp.log 这个问题,而且出现很多,但是当时没有去计算节点查看是不是在那个目录下有文件,呵呵,好像也没理会。 |
2楼2012-04-11 12:38:17












回复此楼