24小时热门版块排行榜    

查看: 1950  |  回复: 1

weitong

金虫 (正式写手)

[求助] 作业管理torque和maui使用问题:error while loading shared libraries: libimf.so

尝试组建一个集群,按照网上的安装过程http://blog.csdn.net/educast/article/details/7168467,安装了Torque2.5.13和Maui3.3.1,并且参考了南开大学张鋆的集群构建教程,安了了mpiexec 0.84替代pbs_sched.
在主机root下将pbs_server,pbs_mom,maui都正常启动了,子节点上pbs_mon也正常启动了。 pbsnodes可以看到各个节点的情况。
但是测试一个任务时$ qsub submit.pbs, terminal下没有出错信息,但是result文件是空的。查看了first_task.o0,发现里面有出错信息
/usr/local/sbin/pbs_iff: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory
mpiexec: Error: get_hosts: pbs_connect: Unauthorized Request .
查找libimf.so,发现在/opt/intel/composer_xe_2013.3.163/compiler/lib/intel64,/opt/intel/composer_xe_2013.3.163/compiler/lib/ia32,/opt/intel/composer_xe_2013.3.163/compiler/lib/mic里面都有,尝试将他们都在/etc/profile和/etc/bashrc里面添到到LD_LIBRARY_PATH,并且source了一下。但是仍然没决决问题。

其实这 个libimf.so找到到,还发生在$sudo /etc/init.d/pbs_server start时。只有在su登录后,才能正常启动。
[root@magnetics weitong]# /etc/init.d/pbs_server start
/var/spool/torque/server_priv/serverdb
Starting TORQUE Server:                                    [确定]

[weitong@magnetics ~]$ sudo /etc/init.d/pbs_server start
[sudo] password for weitong:
/var/spool/torque/server_priv/serverdb
Starting TORQUE Server: /usr/local/sbin/pbs_server: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory
                                                           [失败]


*附***submit.pbs*****
#!/bin/sh
#PBS -l nodes=mag02:ppn=8+magnetics:ppn=8 (使用mag02上8个CPU和magnetics上8个CPU)
#PBS -q batch
#PBS -j oe
#PBS -N first_task  (任务名字,随便取)
cd /home/weitong
/usr/local/mpitorque/bin/mpiexec  ./Work/Computing/hellocluster > result
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

weitong

金虫 (正式写手)

问题解决,根本原因是计算节点slave上的so文件路径不全,要修改补充计算节点上/etc/ld.so.conf,以及/etc/ld.so.conf.d/里面的conf文件。 附上解决过程:
主机上:
[root@magnetics ld.so.conf.d]# scp torque.conf mag02:/etc/ld.so.conf.d/

在计算节点mag02机子上:
[weitong@mag02 etc]$ sudo /sbin/ldconfig /etc/ld.so.conf   (新新so路径)               

在主机上:
[weitong@magnetics Computing]$ qsub submit.pbs
61.magnetics
出现新的错误first_task.o61, 说明上面通过conf文件添加so路径的方法奏效了。
/usr/local/sbin/pbs_iff: error while loading shared libraries: libtorque.so.2: cannot open shared object file: No such file or directory
mpiexec: Error: get_hosts: pbs_connect: Unauthorized Request .

查找发现libtorque.so.2在/usr/local/lib里面

在计算节点mag02机子上:
[weitong@mag02 etc]$ sudo vim ld.so.conf,加入/usr/local/lib
include ld.so.conf.d/*.conf
/usr/local/lib

主上上:
[root@magnetics ld.so.conf.d]# scp mpitorque.conf mag02:/etc/ld.so.conf.d/

在计算节点mag02机子上:

[weitong@mag02 etc]$ sudo /sbin/ldconfig /etc/ld.so.conf
      
*************Done,解决问题。原来要将找不到的so文件路径加入到conf文件中。 *************
2楼2014-03-23 00:09:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 weitong 的主题更新
信息提示
请填处理意见