24小时热门版块排行榜    

Znn3bq.jpeg
查看: 3594  |  回复: 25

weiyidan

新虫 (小有名气)

[求助] HSE天河2号运算出错,卡在了entering main looping 已有3人参与

在天河2号计算HSE出现错误,版本为5.3.2,用96核计算32个原子,错误如下
entering main loop
       N       E                     dE             d eps       ncg     rms          ort
yhrun: Job step aborted: Waiting up to 2 seconds for job step to finish.
yhrun: got SIGCONT
slurmd[cn10454]: *** STEP 3817928.0 CANCELLED AT 2016-12-10T15:14:10 ***
slurmd[cn10454]: *** JOB 3817928 CANCELLED AT 2016-12-10T15:14:10 ***
yhrun: forcing job termination
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               00000000007A7AAE  Unknown               Unknown  Unknown
vasp               00000000007A0051  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               00000000007A7AAE  Unknown               Unknown  Unknown
vasp               00000000007A0051  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               00000000007A7AAE  Unknown               Unknown  Unknown
vasp               00000000007A0051  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
forrtl: error (78): process killed (SIGTERM)
Image              PC                Routine            Line        Source            
vasp               0000000000B72CE9  Unknown               Unknown  Unknown
vasp               0000000000B715BE  Unknown               Unknown  Unknown
vasp               0000000000B18C22  Unknown               Unknown  Unknown
vasp               0000000000AC65C3  Unknown               Unknown  Unknown
vasp               0000000000ACC269  Unknown               Unknown  Unknown
libpthread.so.0    000000392220F710  Unknown               Unknown  Unknown
vasp               0000000000551745  Unknown               Unknown  Unknown
vasp               00000000007A0179  Unknown               Unknown  Unknown
vasp               00000000008B1ACC  Unknown               Unknown  Unknown
vasp               00000000008C3F38  Unknown               Unknown  Unknown
vasp               0000000000440BD3  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
vasp               000000000041A2A6  Unknown               Unknown  Unknown
libc.so.6          0000003921A1ED1D  Unknown               Unknown  Unknown
vasp               000000000041A199  Unknown               Unknown  Unknown
yhrun: error: cn10455: task 1: Exited with exit code 1

INCAR如下

SYSTEM = Si-Diamond
ISTART = 1
ICHARG = 2
EDIFF = 0.00001
EDIFFG = -0.001
ENCUT = 550
ENAUG = 800
LREAL = .TRUE.
LWAVE = .TRUE.
LCHARG = .TRUE.
NELM = 200
NSW = 0
IBRION = -1
LMAXMIX = 4
ISMEAR = 0
SIGMA = 0.1
NSIM = 4
IALGO = 48
ISYM = 0
LHFCALC = .TRUE.
HFSCREEN = 0.2
ALGO = Damped
TIME = 0.4
ENCUTFOCK = L
AEXX = 0.25
ISIF = 2
LORBIT = 11


另外谁有模拟硅能带的好方法吗,麻烦给我推荐下
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
11楼: Originally posted by weiyidan at 2016-12-10 21:49:55
哇,版主是超算中心的?我现在应该怎么做呢?用胖节点吗?我现在还在试用期间,应该怎么做呢?第一次用超算
1. 增加节点,我现在用的4节点96核
2. 要求管理员开放内存权限
是这两种解决方案吗?...

我不是超算的,但是我在用超算。
1. 增加节点,我现在用的4节点96核
2. 要求管理员开放内存权限
两种都可以,你也可以减小精度进行计算。

» 本帖已获得的红花(最新10朵)

http://blog.sciencenet.cn/u/pfliu89
12楼2016-12-10 21:53:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
14楼: Originally posted by obaica at 2016-12-10 22:02:57
开什么玩笑…  一个HSE06让管理员开放管理员内存权限。

明明是参数和节点cpu设置不合理...

我有说让他减少精度算,另外参数和节点我也有提示,让他自己选择就可以了。再说让管理开个权限也不是啥大问题,我们组的服务器我就包可以的,怎么说也是上百核的小超算
http://blog.sciencenet.cn/u/pfliu89
15楼2016-12-10 22:15:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
16楼: Originally posted by obaica at 2016-12-10 22:21:29
棒! 据我所知天河二号比较难申请大内存的权限,除非有非用不可的理由。因为它还有很多不完善的地方。15年才投入使用。它的机时还只能用节点数目来计时,而不能用cpu核数来计时。...

那就不知道了,我们组自己有小超算,学院里有大超算,管理员基本你都见过,还是比较好说话的。天河不太清楚,从来没用过。

» 本帖已获得的红花(最新10朵)

http://blog.sciencenet.cn/u/pfliu89
17楼2016-12-10 22:24:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

06022043

铁杆木虫 (著名写手)

我用天津超算也经常出现问题,有时候莫名其妙都停了。

发自小木虫Android客户端
专心做学问
18楼2016-12-10 22:48:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

weiyidan

新虫 (小有名气)

本人已经计算过2个原子的原胞,并没有提示错误
2楼2016-12-10 16:57:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

weiyidan

新虫 (小有名气)

3楼2016-12-10 17:20:54
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

应该内存不够用了吧
http://blog.sciencenet.cn/u/pfliu89
4楼2016-12-10 17:24:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

y1ding

铁杆木虫 (著名写手)

【答案】应助回帖

★ ★
感谢参与,应助指数 +1
weiyidan(漫天飘雪代发): 金币+2, 谢谢交流 2016-12-10 20:34:50
内存不够
天河一个节点才64G内存
你要加节点内存
5楼2016-12-10 17:58:59
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

obaica

禁言 (著名写手)

感谢参与,应助指数 +1
漫天飘雪: 屏蔽内容, 违规存档, 不要打广告了 2016-12-10 20:35:34
本帖内容被屏蔽

6楼2016-12-10 18:16:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

weiyidan

新虫 (小有名气)

引用回帖:
4楼: Originally posted by 漫天飘雪 at 2016-12-10 17:24:42
应该内存不够用了吧

超算也能内存不够吗
7楼2016-12-10 21:11:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

weiyidan

新虫 (小有名气)

引用回帖:
5楼: Originally posted by y1ding at 2016-12-10 17:58:59
内存不够
天河一个节点才64G内存
你要加节点内存

那我应该加到多少?4*64=256G, 我算32个原子也出现这个错误u
8楼2016-12-10 21:12:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

漫天飘雪

版主 (知名作家)

认真做事,踏实做人

引用回帖:
7楼: Originally posted by weiyidan at 2016-12-10 21:11:52
超算也能内存不够吗...

当然了。我们这边有的节点专门装了大内存,取名胖节点,不知道你用的有没。另外,跨的节点越多算的越慢,核不不是越多越好,多核并行也是要时间的。
http://blog.sciencenet.cn/u/pfliu89
9楼2016-12-10 21:15:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
10楼2016-12-10 21:24:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 weiyidan 的主题更新
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[硕博家园] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 l7k6xnh0yc 2026-05-14 4/200 2026-05-15 17:43 by x0mp7owy2b
[论文投稿] 有带发论文的吗 +4 山楂之术 2026-05-09 4/200 2026-05-15 15:40 by 妹子不好惹
[文学芳草园] 风把牡丹吹跑了 +5 myrtle 2026-05-12 9/450 2026-05-15 15:27 by myrtle
[基金申请] 青C资助名额大幅增加! +11 西葫芦炒鸡蛋 2026-05-13 15/750 2026-05-15 14:36 by ambravo
[公派出国] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 l7k6xnh0yc 2026-05-14 3/150 2026-05-15 12:03 by onwj4wpxp2
[基金申请] 精华III评审感受-评审感受-评审感受 +14 ferrarichen 2026-05-11 18/900 2026-05-15 11:12 by cmhchen
[基金申请] 这年头没有找到涵评专家,还有中面上的可能吗 +9 dd921ww 2026-05-12 10/500 2026-05-15 10:41 by muyiliuhui
[考博] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 l7k6xnh0yc 2026-05-14 3/150 2026-05-15 09:23 by onwj4wpxp2
[考研] 售SCI一区T0P文章,我:8.O.5.5.1.O.5.4,科目齐全,可+急 +3 cjf4bx70cj 2026-05-14 4/200 2026-05-15 09:03 by gagyerk94e
[考博] 26应届毕业生考博求助 +3 wo一定上岸 2026-05-13 3/150 2026-05-14 21:47 by 明海天涯
[基金申请] 重磅!青年科学基金项目(C类)资助增幅预计超过50% +5 水和泥不是水泥 2026-05-13 7/350 2026-05-14 20:57 by 水和泥不是水泥
[有机交流] 求助2,4-二氯-5-嘧啶甲醛的合成方法 20+3 光吃不拉 2026-05-14 5/250 2026-05-14 20:15 by 一切都是空工
[高分子] 本人最近太闲了,谁有问题可以提,每天会统一回复 +8 一切都是空工 2026-05-12 19/950 2026-05-14 20:03 by 一切都是空工
[考博] 申博自荐 +4 食品的橙子 2026-05-09 6/300 2026-05-14 16:05 by great1919
[考博] 材料类只有一篇综述能申博么 +4 乐逍遥谷 2026-05-13 4/200 2026-05-14 12:05 by zhyzzh
[硕博家园] 导师各种操作恶心咋办 +11 苍白的小青天 2026-05-09 13/650 2026-05-13 17:11 by 六两废铜
[论文投稿] 求助大佬sci投稿哪个好中 +3 江沅188 2026-05-12 4/200 2026-05-13 14:35 by 江沅188
[考博] 西南大学考核制博士 +3 lijunjie84 2026-05-11 6/300 2026-05-12 18:09 by lijunjie84
[文学芳草园] 窗边初夏的小雨 +7 阿美_Lml888 2026-05-09 10/500 2026-05-12 15:27 by 阿美_Lml888
[考博] 现在不知道怎么办,感觉很痛苦 +4 qweww 2026-05-11 5/250 2026-05-11 20:23 by Oversize
信息提示
请填处理意见