| 查看: 1392 | 回复: 1 | ||||
zhangguangping木虫 (著名写手)
|
[交流]
使用Torque的注意undelivered目录了 已有1人参与
|
|
今天突然发现其中一个节点上的/目录使用量为100%,但是其他节点都是9%左右。很奇怪,我没有用root用户在/目录下面写东西。后来就到/目录下面利用du 命令挨着搜索看看“是谁动了我的奶酪”。结果最后结果让我大吃一惊。结果是Torque在“偷吃我的奶酪”,并且真凶是/var/spool/torque/undelivered,进入这个目录undelivered下面,发现是一些用户任务相关的文件。格式为*.OU(*为任务号),并且发现其中一个文件占用了44GB. 我到手册上查了一下,找到如下内容: If for any reason the MOM daemon is unable to copy the output or error files to the submission directory, these files are instead copied to the undelivered directory also located in. 并且一旦任务发生了这个问题,用户不会得到输出文件的。 关于这个问题的产生原因,不是很清楚,目前也在寻找是不是这个问题和任务提交上之后不运行,必须用qrun才运行有关呢? 希望能够引起大家的讨论,引来高手的讲解。 回拷数据的时候采用的是rcp或者scp,这个时候需要节点之间无密码验证,因此需要保证从计算节点到管理节点能够无密码验证才行。 如果采用的是NFS系统的话,可以直接使用cp拷贝就行,就避免了这个问题,关于这个的设置可以参考手册$usecp的用法。 [ Last edited by zhangguangping on 2012-9-20 at 11:02 ] |
» 收录本帖的淘帖专辑推荐
第一性原理杂 |
» 猜你喜欢
基元I理论下三大核心空间现象精准推导与细节解析
已经有0人回复
基于基元 I 统一理论的反重力理论推导
已经有0人回复
物理学I论文润色/翻译怎么收费?
已经有191人回复
基于基元I统一理论的量子力学本源推导
已经有1人回复
推荐一款可以AI辅助写作的Latex编辑器SmartLatexEditor,超级好用,AI润色,全免费
已经有20人回复
【EI|Scopus 双检索】第六届智能机器人系统国际会议(ISoIRS 2026)
已经有0人回复
2026年第四届电动车与车辆工程国际会议(CEVVE 2026)
已经有0人回复

hnuzhoulin
金虫 (小有名气)
- 应助: 7 (幼儿园)
- 金币: 1202.8
- 红花: 6
- 帖子: 265
- 在线: 49小时
- 虫号: 778409
- 注册: 2009-05-24
- 性别: GG
- 专业: 计算机应用技术
★ ★ ★
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, 欢迎跟帖讨论~ 2012-04-11 12:52:18
小木虫: 金币+0.5, 给个红包,谢谢回帖
cenwanglai: 金币+2, 欢迎跟帖讨论~ 2012-04-11 12:52:18
|
没有碰到过这个问题,但是曾经碰到过在管理节点的message里面提示 Aug 9 09:19:09 compute-0-28.local pbs_mom: LOG_ERROR::sys_copy, command '/bin/cp -rp /opt/torque/spool/6375.cluster.atomsimlab.com.OU /home/dazao/V-He/V_pv/vacany/vasp.log' failed with status=1, giving up after 4 attempts Aug 9 09:19:09 compute-0-28.local pbs_mom: LOG_ERROR::req_cpyfile, Unable to copy file /opt/torque/spool/6375.cluster.atomsimlab.com.OU to /home/dazao/V-He/V_pv/vacany/vasp.log 这个问题,而且出现很多,但是当时没有去计算节点查看是不是在那个目录下有文件,呵呵,好像也没理会。 |
2楼2012-04-11 12:38:17













回复此楼