24小时热门版块排行榜    

查看: 3468  |  回复: 25

weiyidan

新虫 (小有名气)

[求助] HSE天河2号运算出错,卡在了entering main looping 已有3人参与

在天河2号计算HSE出现错误,版本为5.3.2,用96核计算32个原子,错误如下
entering main loop
       N       E                     dE             d eps       ncg     rms          ort
yhrun: Job step aborted: Waiting up to 2 seconds for job step to finish.
yhrun: got SIGCONT
slurmd[cn10454]: *** STEP 3817928.0 CANCELLED AT 2016-12-10T15:14:10 ***
slurmd[cn10454]: *** JOB 3817928 CANCELLED AT 2016-12-10T15:14:10 ***
yhrun: forcing job termination
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               00000000007A7AAE  Unknown               Unknown  Unknown
vasp               00000000007A0051  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               00000000007A7AAE  Unknown               Unknown  Unknown
vasp               00000000007A0051  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               00000000007A7AAE  Unknown               Unknown  Unknown
vasp               00000000007A0051  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               0000000000551745  Unknown               Unknown  Unknown
vasp               00000000007A0179  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
yhrun: error: cn10455: task 1: Exited with exit code 1

INCAR如下

SYSTEM = Si-Diamond
ISTART = 1
ICHARG = 2
EDIFF = 0.00001
EDIFFG = -0.001
ENCUT = 550
ENAUG = 800
LREAL = .TRUE.
LWAVE = .TRUE.
LCHARG = .TRUE.
NELM = 200
NSW = 0
IBRION = -1
LMAXMIX = 4
ISMEAR = 0
SIGMA = 0.1
NSIM = 4
IALGO = 48
ISYM = 0
LHFCALC = .TRUE.
HFSCREEN = 0.2
ALGO = Damped
TIME = 0.4
ENCUTFOCK = L
AEXX = 0.25
ISIF = 2
LORBIT = 11


另外谁有模拟硅能带的好方法吗,麻烦给我推荐下
回复此楼

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
11楼: Originally posted by weiyidan at 2016-12-10 21:49:55
哇,版主是超算中心的?我现在应该怎么做呢?用胖节点吗?我现在还在试用期间,应该怎么做呢?第一次用超算
1. 增加节点,我现在用的4节点96核
2. 要求管理员开放内存权限
是这两种解决方案吗?...

我不是超算的,但是我在用超算。
1. 增加节点,我现在用的4节点96核
2. 要求管理员开放内存权限
两种都可以,你也可以减小精度进行计算。

» 本帖已获得的红花(最新10朵)

http://blog.sciencenet.cn/u/pfliu89
12楼2016-12-10 21:53:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
14楼: Originally posted by obaica at 2016-12-10 22:02:57
开什么玩笑…  一个HSE06让管理员开放管理员内存权限。

明明是参数和节点cpu设置不合理...

我有说让他减少精度算,另外参数和节点我也有提示,让他自己选择就可以了。再说让管理开个权限也不是啥大问题,我们组的服务器我就包可以的,怎么说也是上百核的小超算
http://blog.sciencenet.cn/u/pfliu89
15楼2016-12-10 22:15:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
16楼: Originally posted by obaica at 2016-12-10 22:21:29
棒! 据我所知天河二号比较难申请大内存的权限,除非有非用不可的理由。因为它还有很多不完善的地方。15年才投入使用。它的机时还只能用节点数目来计时,而不能用cpu核数来计时。...

那就不知道了,我们组自己有小超算,学院里有大超算,管理员基本你都见过,还是比较好说话的。天河不太清楚,从来没用过。

» 本帖已获得的红花(最新10朵)

http://blog.sciencenet.cn/u/pfliu89
17楼2016-12-10 22:24:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

06022043

铁杆木虫 (著名写手)

我用天津超算也经常出现问题,有时候莫名其妙都停了。

发自小木虫Android客户端
专心做学问
18楼2016-12-10 22:48:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

weiyidan

新虫 (小有名气)

本人已经计算过2个原子的原胞,并没有提示错误
2楼2016-12-10 16:57:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

weiyidan

新虫 (小有名气)

3楼2016-12-10 17:20:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

应该内存不够用了吧
http://blog.sciencenet.cn/u/pfliu89
4楼2016-12-10 17:24:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

y1ding

铁杆木虫 (著名写手)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
weiyidan(漫天飘雪代发): 金币+2, 谢谢交流 2016-12-10 20:34:50
内存不够
天河一个节点才64G内存
你要加节点内存
5楼2016-12-10 17:58:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

obaica

禁言 (著名写手)

感谢参与,应助指数 +1
漫天飘雪: 屏蔽内容, 违规存档, 不要打广告了 2016-12-10 20:35:34
本帖内容被屏蔽

6楼2016-12-10 18:16:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

weiyidan

新虫 (小有名气)

引用回帖:
4楼: Originally posted by 漫天飘雪 at 2016-12-10 17:24:42
应该内存不够用了吧

超算也能内存不够吗
7楼2016-12-10 21:11:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

weiyidan

新虫 (小有名气)

引用回帖:
5楼: Originally posted by y1ding at 2016-12-10 17:58:59
内存不够
天河一个节点才64G内存
你要加节点内存

那我应该加到多少?4*64=256G, 我算32个原子也出现这个错误u
8楼2016-12-10 21:12:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
7楼: Originally posted by weiyidan at 2016-12-10 21:11:52
超算也能内存不够吗...

当然了。我们这边有的节点专门装了大内存,取名胖节点,不知道你用的有没。另外,跨的节点越多算的越慢,核不不是越多越好,多核并行也是要时间的。
http://blog.sciencenet.cn/u/pfliu89
9楼2016-12-10 21:15:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
10楼2016-12-10 21:24:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 weiyidan 的主题更新
信息提示
请填处理意见