24小时热门版块排行榜    

CyRhmU.jpeg
查看: 2669  |  回复: 19

VASP_2012

新虫 (小有名气)

[求助] 采用PBS脚本第一次提交任务,算了1步就被杀死,有错误提示但不知道原因?

PBS脚本如下:

## Specify the job name
##PBS -S /bin/sh
#PBS -N  new
##PBS -q zhou
## Join the standard error and the standard output into 1 file output
#PBS -j oe
##PBS -m be
#PBS -V
## Set number of nodes and number of processor per node
#PBS -l nodes=2:ppn=2
cd $PBS_O_WORKDIR
mpirun  -np 4 vasp
rm -rf $PBS_JOBID-$PBS_JOBCOOKIE.hosts


错误提示如下:
       N       E                     dE             d eps       ncg     rms          rms(c)
RMM:   1     0.112962560756E+03    0.11296E+03   -0.69848E+03  1512   0.693E+02
mpirun: killing job...
--------------------------------------------------------------------------
mpirun noticed that process rank 0 with PID 32211 on node r1i3n3 exited on signal 0 (Unknown signal 0).
--------------------------------------------------------------------------
mpirun: clean termination accomplished

请问是什么原因造成的?应该如何修改?
回复此楼

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
回帖支持 ( 显示支持度最高的前 50 名 )

贺仪

铁杆木虫 (著名写手)

【答案】应助回帖

★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★ ★
fzx2008: 金币+3, 谢谢指教 2012-04-26 14:35:43
VASP_2012: 金币+9, ★★★★★最佳答案 2012-05-01 02:42:39
引用回帖:
17楼: Originally posted by VASP_2012 at 2012-04-26 11:43:14:
麻烦版主贴出完整版,我再修改试以下。谢谢~

## Specify the job name
##PBS -S /bin/sh
#PBS -N vasp
##PBS -q zhou2

## Join the standard error and the standard output into 1 file output
#PBS -j oe
##PBS -m be
#PBS -V

## Set number of nodes and number of processor per node
#PBS -l nodes=1:ppn=12
cd $PBS_O_WORKDIR
## Specify the job name
##PBS -S /bin/sh
#PBS -N vasp
##PBS -q zhou2

## Join the standard error and the standard output into 1 file output
#PBS -j oe
##PBS -m be
#PBS -V

## Set number of nodes and number of processor per node
#PBS -l nodes=1:ppn=12
cd $PBS_O_WORKDIR

# The program we want to execute (modify to suit your setup)
EXEC=vasp
#EXEC=/public/VASP/vasp.5.2/vasp-p
#EXEC=/public/VASP/vasp.5.2/vasp-g

# setup mpd env (Of course use some other secret word than "dfadfs"
#if [ ! -f ~/.mpd.conf ]; then
#/bin/echo "secretword=dfadfs" >> ~/.mpd.conf
#/bin/chmod 600 ~/.mpd.conf
#fi


##########################################################
# The following should be no need to
#       change any of these settings for normal use.
##########################################################


# Intel MPI Home
MPI_HOME=/public/intel/impi/3.1

# setup hostfile
cat $PBS_NODEFILE|uniq >> $PBS_JOBID-$PBS_JOBCOOKIE.hosts
echo "host: "
cat $PBS_JOBID-$PBS_JOBCOOKIE.hosts
echo "---------------------------"
# setup Nums of Processor
NP=`cat $PBS_NODEFILE|wc -l`
echo "Numbers of Processors:  $NP"
echo "---------------------------"

# Number of MPD
N_MPD=`cat $PBS_JOBID-$PBS_JOBCOOKIE.hosts|wc -l`
echo "started mpd Number: $N_MPD"
echo "---------------------------"

# setup mpi env (em64t)
$MPI_HOME/bin64/mpdboot -r rsh -n $N_MPD -f $PBS_JOBID-$PBS_JOBCOOKIE.hosts


# running program
$MPI_HOME/bin64/mpiexec -genv I_MPI_DEBUG 3 -genv I_MPI_DEVICE ssm -n $NP $EXEC

# clean
$MPI_HOME/bin64/mpdallexit
rm -rf $PBS_JOBID-$PBS_JOBCOOKIE.hosts

你根据你的情况修改一些变量吧
嘟啦啦嘟啦啦嘟
19楼2012-04-26 14:32:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通回帖

tangsw911

铁杆木虫 (正式写手)

【答案】应助回帖


感谢参与,应助指数 +1
liliangfang: 金币+1, 多谢提示 2012-04-22 09:47:35
看看是不是你的计算任务太大了,内存不够用了
2楼2012-04-22 09:28:32
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

VASP_2012

新虫 (小有名气)

引用回帖:
2楼: Originally posted by tangsw911 at 2012-04-22 09:28:32:
看看是不是你的计算任务太大了,内存不够用了

不是滴啊。
如果用1个节点1个CPU能计算2步,然后停止。
如果用2个节点2个CPU能计算1步,然后停止。
继续等待高手。。。
3楼2012-04-22 16:06:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

qzhost

木虫 (小有名气)

【答案】应助回帖


感谢参与,应助指数 +1
WDD880227: 金币+1, 感谢帮助~~ 2012-04-23 08:22:09
##PBS -S /bin/sh
只要一个#

这句都被你注释掉了

肯定只算几秒就删临时文件了
4楼2012-04-23 07:47:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

qzhost

木虫 (小有名气)

【答案】应助回帖


WDD880227: 金币+1, 感谢交流提示 2012-04-23 08:21:55
不对。。没看后面。。。这是MPI的问题

测试了一下好像注释掉也行

这个问题可能是栈没打开

你在mpirun所在那行的前一行加上 ulimit -s unlimited试试
5楼2012-04-23 08:20:49
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

guohuazhong

至尊木虫 (职业作家)

【答案】应助回帖


感谢参与,应助指数 +1
liliangfang: 金币+1, 谢谢交流 2012-04-24 17:25:25
个人觉得可能是vasp并行编译有问题,不妨把优化级别稍调低点试试。
6楼2012-04-24 16:19:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

VASP_2012

新虫 (小有名气)

引用回帖:
6楼: Originally posted by guohuazhong at 2012-04-24 16:19:15:
个人觉得可能是vasp并行编译有问题,不妨把优化级别稍调低点试试。

直接运行mpirun  -np 4 vasp是可以的啊,只是集群的CPU时间有限制,所以才必须用PBS脚本提交。
如果直接mpirun  -np 4 vasp能运行通,VASP的编译也可能会有问题吗?
请指导
7楼2012-04-24 16:29:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

VASP_2012

新虫 (小有名气)

引用回帖:
5楼: Originally posted by qzhost at 2012-04-23 08:20:49:
不对。。没看后面。。。这是MPI的问题

测试了一下好像注释掉也行

这个问题可能是栈没打开

你在mpirun所在那行的前一行加上 ulimit -s unlimited试试

试过了,好像不是这个原因
8楼2012-04-24 16:33:56
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

贺仪

铁杆木虫 (著名写手)

【答案】应助回帖


感谢参与,应助指数 +1
fzx2008: 金币+1, 谢谢回帖交流! 2012-04-24 23:37:32
cd $PBS_O_WORKDIR
mpirun  -np 4 vasp
之间加一个mpd & 试试
嘟啦啦嘟啦啦嘟
9楼2012-04-24 22:52:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

VASP_2012

新虫 (小有名气)

引用回帖:
9楼: Originally posted by 贺仪 at 2012-04-24 22:52:42:
cd $PBS_O_WORKDIR
mpirun  -np 4 vasp
之间加一个mpd & 试试

请问加上mpd & 是什么意思啊?
10楼2012-04-25 06:23:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 VASP_2012 的主题更新
信息提示
请填处理意见