集群的并行版VASP原来有问题,我修复了一下(是数学库的问题,我改了ld.so.conf),昨天测试了一个例子,很正常的。今天在集群上运行并行的vasp,结果出现错误提示:
我找到的解释是:http://hpc-wiki.uni-graz.at/Wiki-Seiten/MPI%20Errors%20and%20SGE%20Problems.aspx
http://software.intel.com/en-us/forums/showthread.php?t=52255
http://www.ncsa.illinois.edu/UserInfo/Resources/Software/Intel/Compilers/8.1/f_ug1/ug1l_rt_errors.htm
不过我还是看不懂,谁帮我解释一下,有方案的提一下啊。谢谢
[
Last edited by gleerat on 2010-5-25 at 12:09 ]
返回小木虫查看更多
可能并行软件没有安装好,或者编译的时候没有设置对.看起来是同时运行几个串行进程.
这个不大可能,因为这个软件原来一直在用,并行的VASP和MPI都没有听说什么问题,我就是在ld.so.conf中改了一下数学库的链接。而且,昨天我测试的时候还没有任何问题呢(虽然不能确定一定是并行,但是从测试的时间上来看应该是并行的)。
改i数学库干嘛,vasp连接的有些是动态库。
就是因为数学库找不到了才改的啊。这是我原来发的帖子,就是VASP找不到数学库的问题(貌似好了)。
[ Last edited by gleerat on 2010-5-25 at 18:10 ]
据说这种情况是被管理员杀了!!
我就是管理员,呵呵
后来没有出现这种情况。
有关这个问题,可以通过指定数学库的办法来解决。下面是出现这个问题的表示:
-------------------------------------------
forrtl: error (78): process killed (SIGTERM)
Image PC Routine Line Source
mca_pml_ob1.so 00002AE5777DF87E Unknown Unknown Unknown
libmpi.so.1 00002AE571B9E616 Unknown Unknown Unknown
libmpi.so.1 00002AE571ACBE24 Unknown Unknown Unknown
mca_coll_tuned.so 00002AE579539EE9 Unknown Unknown Unknown
mca_coll_tuned.so 00002AE579535B7C Unknown Unknown Unknown
libmpi.so.1 00002AE571AD9931 Unknown Unknown Unknown
libmpi_f77.so.1 00002AE5718539F4 Unknown Unknown Unknown
pvasp533 00000000004899E7 Unknown Unknown Unknown
------------------------------------------
从上面的错误结果可以看出,有些共享库找不到。一般来说,并行程序(如vasp)的编译是在主节点上进行的,而运行是在各个计算节点进行的。有些人(尤其是某些公司)在安装机群时,将软件都装在主节点上,通过网络共享(nfs)的方式发布到各计算节点上。不过也有些是在各计算节点上全部装一遍。无论是哪一种情况,你需要去查找在各计算节点上是否能找到共享库。你用下面的命令查看一下目前已指定的共享位置都有哪些:
echo $LD_LIBRARY_PATH
然后看你那些需要共享的库文件所在的目录是否出现在上面命令的结果中。
例如看第一个错误的情况:locate mca_pml_ob1.so
mca_pml_ob1.so文件可能在/mpi/lib/openmpi中,可你的共享库路径中只有/mpi/lib,显然计算节点是无法找到这个共享文件的,所以你得手工加上。方法是,将下面语句加到你主目录下的.bashrc(或者.bash_profile)文件中去:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/mpi/lib/openmpi
重复以上步骤,直到将所有出现错误的共享库文件都能正确地被计算机搜索到,