24小时热门版块排行榜    

查看: 1764  |  回复: 5

cj4566

木虫 (正式写手)

[求助] pwscf并行计算时总是隔一段时间重新开始

我让学校网管帮我装了并行的pwscf,我对怎么编译并行不懂,用来计算小的体系的时候运行正常,但是算大体系的时候总是运行十几分钟之后重新提交任务,也不报错,不停重复。大家知道这会是什么原因吗?谢谢了!!!下面是我提交的任务脚本:
#!/bin/bash -l
#PBS -N MPI
#PBS -l walltime=20:00:00
#PBS -l select=3:ncpus=16:mem=120gb
module load quantum/5.0.MPT
cd $PBS_O_WORKDIR
mpiexec -n 48 pw.x < ZnO-k01.in > ZnO-k01.out

输出文件的开头:
     Program PWSCF v.5.0        starts on 10Jul2012 at 16:24:40

     This program is part of the open-source Quantum ESPRESSO suite
     for quantum simulation of materials; please cite
         "P. Giannozzi et al., J. Phys.:Condens. Matter 21 395502 (2009);
          URL http://www.quantum-espresso.org",
     in publications or presentations arising from this work. More details at
     http://www.quantum-espresso.org/quote.php

     Parallel version (MPI & OpenMP), running on   768 processor cores
     Number of MPI processes:              48
     Threads/MPI process:                 16
     R & G space division:  proc/pool =   48

     Current dimensions of program PWSCF are:
     Max number of different atomic species (ntypx) = 10
     Max number of k-points (npk) =  40000
     Max angular momentum in pseudopotentials (lmaxx) =  3
     Waiting for input...
     Reading input from standard input
     Message from routine iosys:
     pot_extrapolation='second_order' not available, using 'atomic'
     Message from routine iosys:
     wfc_extrapolation='second_order' not available, using 'atomic'

     Subspace diagonalization in iterative solution of the eigenvalue problem:
     scalapack distributed-memory algorithm (size of sub-group:  4*  4 procs)


     Parallelization info
     --------------------
     sticks:   dense  smooth     PW     G-vecs:    dense   smooth      PW
     Min         869     348     87               364063    92078   11515
     Max         870     349     88               364082    92147   11528
     Sum       41737   16729   4177             17475363  4421473  552847

总是运行一会就重新提交任务,输出文件结尾也看不到错误。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

goldenfisher

金虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
cj4566: 金币+10 2012-07-11 07:11:33
#PBS -l select=3:ncpus=16:mem=120gb????

这里cpu只选择了16个?不太懂,不过我估计是你的并行管理软件的问题
2楼2012-07-10 20:58:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cj4566

木虫 (正式写手)

引用回帖:
2楼: Originally posted by goldenfisher at 2012-07-10 20:58:52
#PBS -l select=3:ncpus=16:mem=120gb????

这里cpu只选择了16个?不太懂,不过我估计是你的并行管理软件的问题

不知道啊,管理员说是用3个node,每个node是16个cpu,120gb mem。不过我昨天修改了下输出文件,运行时间长了点,好像还是会重新提交。修改后原来输出文件里下面的错误没有了    pot_extrapolation='second_order' not available, using 'atomic'
Message from routine iosys:
wfc_extrapolation='second_order' not available, using 'atomic'
不过还是有下面这行:
Subspace diagonalization in iterative solution of the eigenvalue problem:
scalapack distributed-memory algorithm (size of sub-group:  4*  4 procs)
您知道这是什么意思吗?我觉得这是出错信息。谢谢!
3楼2012-07-11 07:10:55
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

风间的记忆

铁杆木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★
感谢参与,应助指数 +1
cj4566: 金币+10, ★★★★★最佳答案 2012-07-11 14:12:37
应该与调度系统无关
而是并行编译的问题
你确定你们那网管很熟PWSCF的并行编译?
九州浩淼,任其东西,明日何在,但随我意。
4楼2012-07-11 13:40:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cj4566

木虫 (正式写手)

引用回帖:
4楼: Originally posted by 风间的记忆 at 2012-07-11 13:40:35
应该与调度系统无关
而是并行编译的问题
你确定你们那网管很熟PWSCF的并行编译?

恩,应该是编译问题,我让管理员重新编译了一次,现在好了,谢谢啊!
5楼2012-07-11 14:12:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

humeng0811

木虫 (正式写手)

引用回帖:
5楼: Originally posted by cj4566 at 2012-07-11 14:12:13
恩,应该是编译问题,我让管理员重新编译了一次,现在好了,谢谢啊!...

我用单节点并行的时候 用的是
PARA_PREFIX='mpiexec -machinefile host.mpd -np 4'

多节点并行 需要什么额外的设置吗
静静的百合盛开在静静的山谷中莫问花为谁开香为谁浓它只兀自绽放它的美丽快乐着它的快乐悲伤着它的悲伤或许孤单但并不寂寞或许惆怅却并不迷茫~~
6楼2014-08-03 17:13:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 cj4566 的主题更新
信息提示
请填处理意见