24小时热门版块排行榜    

CyRhmU.jpeg
查看: 892  |  回复: 13
当前主题已经存档。

lxrui

新虫 (小有名气)

[交流] 【求助】并行计算节点设置

我们所里面的cluster前几天电池组坏了,重修过之后,发现只能利用第一个节点计算MS了,而其他节点无法用,问过说是,重新的又加了几个节点,可能把原来的设置给搞乱了,让重新设置节点,刚接手使用,不知道怎么设置,哪位帮助解决一下啊?谢谢啊!
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
wuchenwf(金币+2,VIP+0):xiexie 6-1 00:12
这主要还是linux并行设置的问题,你可以看看
"Material Studio4.2 for linux的安装"
http://qingyan1971.spaces.live.c ... 75FC440F6!353.entry
论坛里也有差不多的资料。

有不明白的再讨论
2楼2009-05-29 14:59:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lxrui

新虫 (小有名气)

谢谢

实验室原来的师兄都走了,刚进来就遇见机子坏了。
我看看啊,谢谢
3楼2009-05-30 10:25:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lxrui

新虫 (小有名气)

按照设置做了,还是不行啊

我按照上面安装时的说明一步一步的检查了,我们的设置,发现没有问题的,但是还是不能进行并行计算,怎么回事呢?
4楼2009-05-31 09:35:40
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)

★ ★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
wuchenwf(金币+3,VIP+0):xiexie 6-1 00:13
因为不清楚你的cluster的情况,所以很难判断问题出在哪。
比如,你的MS有没有重装?安装ms的账号能不能不用密码就登陆其它所有节点?是不是肯定hosts,hosts.equiv,machines.LINUX,nfs等的设置没问题。有任务分配系统么?
gw-info.sbd gwparams.cfg里的cpu总数确定是cluster的cpu之和么?
这两个文件里
/opt/hpmpi/bin/mpirun -e MPI_REMSH=/usr/bin/rsh -cpu_bind=v -prot -f APPFILE 这行是否对
客户端的gateway在设置更改后有没有刷新?最简单的是删掉gateway再重新加一个,我感觉ms的gateway刷新有问题。

你也可以提交一个远程任务,然后看服务器端产生的文件列表,按时间排列,然后看看最后产生的一些文件的内容。
5楼2009-05-31 12:03:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lxrui

新虫 (小有名气)

谢谢

我再确定下!
6楼2009-06-01 17:19:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lxrui

新虫 (小有名气)

请教

我的MS里面的gw-info.sbd 文件是下面这样子的:
hostname=node1
port=18888
ipaddress=19.16.0.1
pollingfrequency=5000
osname=linux
osversion=2.6.9-1.667smp
gatewayname=node1_18888
revision=2004.08.24
versionmajor=3
versionminor=1
cpu=                  Intel(R) Xeon(TM) CPU 3.00GHz 3000 MHz
cputotal=20
installedmemory=2007 Mb
mpiavailable=yes
mpicommand=/home/bsong/MaterialsStudio/MPICH/bin/mpirun -np
mpiversion=mpich-1.2.4
jobpriority=low
queuingsystem=[none]
怎么没有你说的那一行啊?不懂啊
7楼2009-06-02 15:34:25
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)


zdhlover(金币+1,VIP+0):谢谢,欢迎常来 6-5 00:18
不能确定你的mpicommand是不是正确,因为我没用mpich来并行过materials studio,而且materials studio推荐使用hpmpi(至少4.0以后的版本的说明文档里没有提到mpich应该怎么设置)。

所以我的建议是或者你仔细看看ms的说明文档,看看能否找到这部分的说明,看看mpich的安装和设置方法,或者问问创腾的技术人员,或者改用hpmpi(可以在hp的网站上下),mpicommand按样子改掉。

直接问你师兄他怎么折腾的不也可以么?
8楼2009-06-02 23:57:37
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lxrui

新虫 (小有名气)

谢谢

麻烦你了啊,要是有师兄就好了,我进来时,实验室除了导师就是我最大。呵呵,那我再给创疼联系下,实在是没辙了,问导师,他言辞闪烁,搞不定也不懂
9楼2009-06-03 09:59:18
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

fuzp

铁杆木虫 (正式写手)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
zdhlover(金币+2,VIP+0):谢谢,欢迎常来 6-5 00:18
呵呵,除了我这样喜欢自己折腾的,大部分老板对这些具体问题是不懂的,你就不要为难他了。我的意思是你联系不上以前毕业的师兄么?因为如果能联系到他们,他们就可以远程登录上来进行配置。这样比你自己摸索要快的多。当然自己摸索一下,以后出了问题就不用求人了。

另外你给出的这行不全吧
mpicommand=/home/bsong/MaterialsStudio/MPICH/bin/mpirun -np

既然以前所有节点都可以并行,而MS又没有重装,那这个设置是没问题的,我觉得你需要看看mpirun怎么设置并行,以及新增加的节点怎么加入集群。

不用客气,其实我也在想试试用mpich来并行MS,因为torque+hpmpi+MS在集群运算的时候有问题,所以我想试试用mpich来代替hpmpi看看。

[ Last edited by fuzp on 2009-6-3 at 19:23 ]
10楼2009-06-03 19:15:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 lxrui 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见