| 查看: 1950 | 回复: 1 | |||
weitong金虫 (正式写手)
|
[求助]
作业管理torque和maui使用问题:error while loading shared libraries: libimf.so
|
|
尝试组建一个集群,按照网上的安装过程http://blog.csdn.net/educast/article/details/7168467,安装了Torque2.5.13和Maui3.3.1,并且参考了南开大学张鋆的集群构建教程,安了了mpiexec 0.84替代pbs_sched. 在主机root下将pbs_server,pbs_mom,maui都正常启动了,子节点上pbs_mon也正常启动了。 pbsnodes可以看到各个节点的情况。 但是测试一个任务时$ qsub submit.pbs, terminal下没有出错信息,但是result文件是空的。查看了first_task.o0,发现里面有出错信息 /usr/local/sbin/pbs_iff: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory mpiexec: Error: get_hosts: pbs_connect: Unauthorized Request . 查找libimf.so,发现在/opt/intel/composer_xe_2013.3.163/compiler/lib/intel64,/opt/intel/composer_xe_2013.3.163/compiler/lib/ia32,/opt/intel/composer_xe_2013.3.163/compiler/lib/mic里面都有,尝试将他们都在/etc/profile和/etc/bashrc里面添到到LD_LIBRARY_PATH,并且source了一下。但是仍然没决决问题。 其实这 个libimf.so找到到,还发生在$sudo /etc/init.d/pbs_server start时。只有在su登录后,才能正常启动。 [root@magnetics weitong]# /etc/init.d/pbs_server start /var/spool/torque/server_priv/serverdb Starting TORQUE Server: [确定] [weitong@magnetics ~]$ sudo /etc/init.d/pbs_server start [sudo] password for weitong: /var/spool/torque/server_priv/serverdb Starting TORQUE Server: /usr/local/sbin/pbs_server: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory [失败] *附***submit.pbs***** #!/bin/sh #PBS -l nodes=mag02:ppn=8+magnetics:ppn=8 (使用mag02上8个CPU和magnetics上8个CPU) #PBS -q batch #PBS -j oe #PBS -N first_task (任务名字,随便取) cd /home/weitong /usr/local/mpitorque/bin/mpiexec ./Work/Computing/hellocluster > result |
» 猜你喜欢
新西兰Robinson研究所招收全奖PhD
已经有0人回复
石墨烯转移--二氧化硅衬底石墨烯
已经有0人回复
物理学I论文润色/翻译怎么收费?
已经有195人回复
笼目材料中量子自旋液体基态的证据
已经有0人回复
数学教学论硕士可以读数学物理博士吗?
已经有0人回复
德国亥姆霍兹Hereon中心汉堡分部招镁合金腐蚀裂变SCC课题方向2026公派博士生
已经有4人回复
澳门大学 应用物理及材料工程研究院 潘晖教授课题组诚招博士后
已经有11人回复
求助NH4V4O10晶体的CIF文件
已经有0人回复
英国全奖博士招聘-深度学习与量子物理
已经有0人回复
间接带隙半导体有效质量求助
已经有1人回复
投稿chemical physical letters不送审?
已经有2人回复
» 本主题相关价值贴推荐,对您同样有帮助:
Torque最新手册(4.0)和Maui手册及两个集群管理组件网站
已经有46人回复
weitong
金虫 (正式写手)
- 应助: 1 (幼儿园)
- 金币: 1351.1
- 散金: 26
- 红花: 2
- 帖子: 471
- 在线: 109.5小时
- 虫号: 114607
- 注册: 2005-11-23
- 性别: GG
- 专业: 凝聚态物性 II :电子结构
|
问题解决,根本原因是计算节点slave上的so文件路径不全,要修改补充计算节点上/etc/ld.so.conf,以及/etc/ld.so.conf.d/里面的conf文件。 附上解决过程: 主机上: [root@magnetics ld.so.conf.d]# scp torque.conf mag02:/etc/ld.so.conf.d/ 在计算节点mag02机子上: [weitong@mag02 etc]$ sudo /sbin/ldconfig /etc/ld.so.conf (新新so路径) 在主机上: [weitong@magnetics Computing]$ qsub submit.pbs 61.magnetics 出现新的错误first_task.o61, 说明上面通过conf文件添加so路径的方法奏效了。 /usr/local/sbin/pbs_iff: error while loading shared libraries: libtorque.so.2: cannot open shared object file: No such file or directory mpiexec: Error: get_hosts: pbs_connect: Unauthorized Request . 查找发现libtorque.so.2在/usr/local/lib里面 在计算节点mag02机子上: [weitong@mag02 etc]$ sudo vim ld.so.conf,加入/usr/local/lib include ld.so.conf.d/*.conf /usr/local/lib 主上上: [root@magnetics ld.so.conf.d]# scp mpitorque.conf mag02:/etc/ld.so.conf.d/ 在计算节点mag02机子上: [weitong@mag02 etc]$ sudo /sbin/ldconfig /etc/ld.so.conf *************Done,解决问题。原来要将找不到的so文件路径加入到conf文件中。 ************* |
2楼2014-03-23 00:09:38













回复此楼