24小时热门版块排行榜    

查看: 426  |  回复: 5
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

totem

金虫 (正式写手)

[交流] [讨论] 机群cluster下计算的问题

机群cluster下,CASTEP计算时,top查看CPU占用情况很正常,接近百分百占用,但就是时间很长,比单机计算用的时间都长,一直没有完成信息,其间CPU一直占用着.
大家讨论一下可能的原因.
怀疑是计算完成,但没有正常返回计算结果.

另外大家可以在此贴下提出关于linux下MS计算的相关问题,熟悉的朋友可以帮忙解答.

[ Last edited by totem on 2008-4-24 at 12:13 ]
回复此楼

» 猜你喜欢

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

totem

金虫 (正式写手)

这个原因我想到过,查了好几次了.不是这个原因,硬盘才用了10%多一点.
我现在怀疑是我PC也有问题了.
一个任务,在cluster server上,4 core计算机上和单机上都出问题.
晕了.

看看这个提示:
****************************************************************************
  Warning: electronic minimisation did not converge when finding ground state.
  ****************************************************************************
  Writing checkpoint file...

Writing model to ***.check
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
Error check_elec_ground_state : electronic_minimisation of initial cell failed.
MPI Application rank 2 exited before MPI_Finalize() with status 1
5楼2008-04-24 18:15:43
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 6 个回答

jjf_sxnu

铜虫 (正式写手)

★ ★
lei0736(金币+2,VIP+0):谢谢
你用的什么网络,据我了解,CASTEP的并行效率并不是很好,在我的myrinet上也只能到了70%左右。你先看一看100%的CPU是不是被castep的程序占用的,另外看一看占用这一时间的是用户程序,还是系统调用。如果怀疑计算已经完成,你可以直接到 MaterialsStudio/Gateway/root_default/dsd/jobs/XXXXX 下看一看一个以*.castep结尾的文件,这个就是castep的输出。 其中XXXXX是你任务的ID,是MS自动产生的,你交任务的机子上有显示。
2楼2008-04-24 13:34:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

totem

金虫 (正式写手)

谢谢,
已经发现错误的地方了,但还没找到原因.你说的方法我用过了,server上的结果文件我早下载下来看了.
如果计算能带的时候,***BandStr.castep文件中
Writing model to ***_BandStr.check

Writing analysis data to ***_BandStr.castep_bin
到这一步之后就没有继续下去了,也就是说能带计算出错,没有完成.不知道是什么原因?
另外出现***_BandStr.0001.err这样的错误文件,但大小是0K
现在正在分析原因中.
3楼2008-04-24 15:32:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jjf_sxnu

铜虫 (正式写手)

有时候会有一些奇怪的问题,你看一看是不是你的硬盘満了,我有好几次就是因为硬盘満了的原因搞的我一直找不到毛病。
4楼2008-04-24 16:15:14
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见