24小时热门版块排行榜    

CyRhmU.jpeg
查看: 8834  |  回复: 47
【奖励】 本帖被评价36次,作者lbambool增加金币 29.85

lbambool

木虫 (著名写手)


[资源] 【原创】MS 5.0 LINUX 版小集群并行安装手记

MS 5.0 LINUX 版小集群并行安装手记
这几天重新配置了一下计算环境,顺便记录下来供同行参考,这次以安装MS5.0为例,实际上4.0,4.2,4.4的版本这几天我都配置过了,方法基本相同。
1.操作系统环境说明
客户端要求是Windows XP Professional - SP3或Vista (Business & Enterprise Editions) SP2,客户端只支持32位操作系统,也就是说装了64位的操作系统也无法用64位计算,只能运行在兼容32位模式下。
服务器端硬件现在一般是IA32或x86-64,后者较多,操作系统一般有windows、UNIX和LINUX。如果是用windows系列,可以用以下几种:
•Windows Server 2003, all editions - SP2 and R2
•Windows Server 2008, all editions - SP2
•Windows XP Professional - SP3
•Windows Vista (Business & Enterprise) - SP2
如果用UNIX系列(包含LINUX)可以用以下几种:
•x86 (32-bit)
Red Hat Enterprise Linux AS, ES, and WS - 4.7 and 4.8
SuSE™ Linux Enterprise Server 10 (SP1 and SP2)
•x86-64 (64-bit)
Red Hat Enterprise Linux AS, ES, and WS - 4.7 and 4.8
Red Hat Enterprise Linux - 5.3 and 5.4
Red Hat Enterprise Linux Desktop - 5.3 and 5.4
SuSE Linux Enterprise Server - 10 (SP1 and SP2) and 11
一般最小化安装就可以,不需要图形界面,但所有节点都要安装一些补丁,下面我以64位centos 4.8版为例,其他版本请参考README_Materials_Studio.htm中关于system_requirements_info部分:
glibc-2.3.4-2.43 (32-bit and 64-bit)
libgcc-3.4.6-11 (32-bit and 64-bit)
libstdc++-33-3.4.6-11 (32-bit and 64-bit)
compat-libstdc++-33-3.2.3-47.3 (32-bit)
hpmpi-2.03.01.00-20090402r.x86_64
这里要注意,除了HPMPI以外,其他都要同时安装32位和64位两种版本,HPMPI也要在所有参与计算的节点上安装。
2.SSH和RSH免认证设置,一般都是使用SSH免认证登录。
首先确认rsh-server包是否安装,方法参考Installing Materials Studio on a Linux cluster中的部分内容或网上搜索,很多教程:
HP-MPI使用rsh的话要保证各节点间可以免认证访问,这可以通过创建或修改/etc/hosts.equiv文件来实现,一般来说,hosts.equiv中要包含这样的内容:

localhost
节点1机器名
节点2机器名
……
节点n机器名
如果要使用SSH的话,首先要确认SSH服务是否安装,一般来说,SSH服务默认是安装的,测试方法如下:
ssh localhost
如果已经安装,你可以看提示符换行,并切换到当前用户的用户目录,如果没有出现这样的提示的话,就不能使用对称多处理器并行,需要检查SSH是否可用。
如果出现要求你输入密码的提示符,你就需要进行SSH免认证设置。当你第一次采用SSH登录时一般会看到以下提示:
The authenticity of host 'dewer2 (133.27.92.5)' can't be established.
RSA key fingerprint is cf:d6:77:c6:db:42:99:6f:11:07:f3:38:46:7b:f9:05.
Are you sure you want to continue connecting (yes/no)?
回答yes继续,片刻后,看到一个新的提示符.
配置SSH免认证登录的方法如下:
为当前安装MS网关的用户创建一个公钥对,方法如下:
$> ssh-keygen -t rsa
不要输入任何密码字符串,只回车两次就可以了。
产生的私钥放于~/.ssh目录下的id_rsa 和id_rsa.pub文件中,将id_rsa.pub文件另存为 authorized_keys2。
改变读写权限,保证目录~./ssh和里面的文件不被其他任何用户访问,否则无法实现免认证登录,操作方法如下:
切换路么到保存密钥之处
cd ~/.ssh
设置权限
chmod 600 *
设置目录访问权限
chmod 700 .
Materials Studio用户的主目录必须设为对其他用户只读权限,如果其他用户有写权限的话,SSH还要要求输入密码,操作过程如下:
切换到用户的主目录
cd ~
改变权限,命令如下:
chmod 755 .
在各节点进行同样的操作,然后将所有id_rsa.pub的内容全并到一个文件里并命名为 authorized_keys2,放到每一个节点的~/.ssh路径下。 这样应该就可以做到免认证SSH了,如果还提示要输入密码的

话再仔细检查一下上述各步是否有误。
注意,MS的安装用户一定是非root用户,否则无法实现免认证登录,也无法实现多节点并行。
3.MS安装
先将MS文件上传到主节点,可以以打包的形式上传,也可以先做成ISO,我一般是习惯先做成ISO上传,以免出现权限不够的问题,遇到权限不够的时候改变文件属性,加上执行权限就可以了。
上传后将ISO文件挂载到某一目录下,如果想挂到根目录下mnt目录下的iso目录中,命令如下:
mount -o loop -t iso9660 ms50_unix.iso /mnt/iso
在主节点上切换到MS安装用户,本人用的是msi,然后到换到/mnt/iso/UNIX下执行./Install --type cluster,或是直接./mnt/iso/UNIX/Install --type cluster
--type cluster这个参数是并行时必须的加的参数,另一个要注意的就是要用非root用户安装。
安装过程中其他基本上用默认的就可以,但有一个临时文件夹建议不要放在共享目录下,每个节点放一个tmp,这样可以减少节点间的通信量,提高性能。比如说我的安装目录是/home/msi/Accelrys/MaterialsStudio50,Accelrys是我要共享给其他节点的目录,那tmp我就放在/home/msi/下,用MS的用户创建,保证可写入。其他每个节点的用户目录下都创建一个tmp目录。安装完成后将Accelrys目录共享给其他节点。
先将Accelrys共享,编辑/etc/exports,加入下面一行内容:
/home/msi/Accelrys       *(rw,no_root_squash)
保存退出后,重启NFS服务
service NFS restart
然后到其他节点上,su root,输入密码,执行以下命令:
mount -t nfs  主节点名:/home/msi/Accelrys /home/msi/Accelrys
再将hosts.equiv文件放在/etc下和/home/msi/Accelrys/etc下.
将licenses里第一行中的机器名改为你的主节点的机器名后,文件名改为msi.lic放到/home/msi/Accelrys/LicensePack/Licenses里。
修改
/home/msi/Accelrys/MaterialsStudio50/share/data下的machines.LINUX,写上各节点的机器名:CPU数。修改/home/msi/Accelrys/MaterialsStudio50/etc/Gateway/root_default/dsd/conf里两个文件里的CPU数为你各节点CPU总数。
重新启动网关,进入/home/msi/Accelrys/MaterialsStudio50/etc/Gateway,执行
./msgateway_control_18888 start
到此,LINUX下的安装结束。
回到windows下,配置服务控制台,加入新的网关,然后测试是否可用,如有问题再回头一下排查。
写的较匆忙,可能有不准确的地方,以后慢慢再修改。附近上正在用的lincense文件

[ Last edited by lbambool on 2010-1-21 at 16:03 ]
回复此楼

» 收录本帖的淘帖专辑推荐

材料计算模拟实用技巧 Materials Studio 相关 计算资料 Materials Modeling
MS安装使用 第一性原理 其他

» 本帖已获得的红花(最新10朵)

» 猜你喜欢

» 本主题相关价值贴推荐,对您同样有帮助:

已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

smsjshd828


★★★★★ 五星级,优秀推荐

非常佩服楼主的分享和耐心。
2楼2010-01-20 17:40:24
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhengjinde

木虫 (正式写手)


★★★★★ 五星级,优秀推荐

好样的,我以前安装了很久,只有一次安装成功。使用集群计算效率显著提高,但是出问题往往也比较难处理。
受教了
3楼2010-01-21 08:12:05
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

abinitio

版主 (著名写手)


★★★★★ 五星级,优秀推荐

收藏主题,谢谢共享。
4楼2010-01-21 08:32:47
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

physics206

新虫 (小有名气)


★★★★★ 五星级,优秀推荐

我配置过4.2的,可是节点8的时候成功,扩展成16节点后却出问题、。。。。
5楼2010-01-22 01:50:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

cup.qzu

新虫 (著名写手)


★★★★★ 五星级,优秀推荐

好贴好贴
6楼2010-01-22 03:05:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

吴大为

至尊木虫 (著名写手)


★★★★★ 五星级,优秀推荐

收藏主题了,很好。
7楼2010-01-22 08:57:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lbambool

木虫 (著名写手)


引用回帖:
Originally posted by physics206 at 2010-1-22 01:50:
我配置过4.2的,可是节点8的时候成功,扩展成16节点后却出问题、。。。。

好象什么时候听说过MS在超过16个CPU以后性能提升就有限了,CPU较多时最好分成多个计算集群使用。
8楼2010-01-22 12:03:58
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

oulihui666

至尊木虫 (职业作家)


★★★★★ 五星级,优秀推荐

楼主辛苦了
10楼2010-01-22 13:07:50
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

carlon

金虫 (小有名气)


★ 一星级,一般

两个机器并行,数据传输效率就没有那么快了
11楼2010-01-22 15:01:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wuzhongli

木虫 (正式写手)


★★★★★ 五星级,优秀推荐

谢谢楼主!
14楼2010-01-23 09:19:04
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lbambool

木虫 (著名写手)


引用回帖:
Originally posted by carlon at 2010-01-22 15:01:09:
两个机器并行,数据传输效率就没有那么快了

不是所有人都买得起SMP机的,没钱的时候,PC集群还是有很高性价比的,总比单机要快呀。
15楼2010-01-30 17:18:33
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

awmc2008

至尊木虫 (文坛精英)


★★★★★ 五星级,优秀推荐

thank you for your toil work.
16楼2010-01-30 20:03:06
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ccwhhs

铜虫 (正式写手)


★★★★★ 五星级,优秀推荐

好呀!!!!
17楼2010-02-05 15:13:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

easy000

至尊木虫 (小有名气)


★★★ 三星级,支持鼓励

很强大的帖子。
18楼2010-02-05 17:33:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yachunwang


★★★★★ 五星级,优秀推荐

谢谢分享,受益很大!
19楼2010-03-20 08:25:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

slz0811

木虫 (小有名气)


★★★ 三星级,支持鼓励

收藏主题,谢谢共享
20楼2010-03-20 11:57:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

619509429


也就是说只有在主节点安装MS就可以了?我们实验室的集群是我和一个师兄按照网上的步骤建的,两节点6处理器,但是怎么才能知道集群是并行计算的呢?只看CPU能确定么?怎么试验了一下感觉这两台机器的计算速度还不如单机啊?
21楼2010-03-22 15:48:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

mafei028

铜虫 (初入文坛)


★★★★★ 五星级,优秀推荐

楼主强啊。
22楼2010-05-20 14:46:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lbambool

木虫 (著名写手)


引用回帖:
Originally posted by 619509429 at 2010-03-22 15:48:31:
也就是说只有在主节点安装MS就可以了?我们实验室的集群是我和一个师兄按照网上的步骤建的,两节点6处理器,但是怎么才能知道集群是并行计算的呢?只看CPU能确定么?怎么试验了一下感觉这两台机器的计算速度还不如 ...

SSH到其他节点上看一下是否的MS的进程在运行,多节点的计算性能虽然达不到一个节点的两倍,但1.5-1.7倍还是差不多的,如果不如单机的话就是配置有问题了。
两节点为什么会是6处理器呢?
23楼2010-12-17 19:17:28
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hdh912

金虫 (正式写手)


★★★ 三星级,支持鼓励

不错准备装来看看。
24楼2010-12-24 15:32:44
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

liujia1017

金虫 (初入文坛)


★★★★★ 五星级,优秀推荐

顶一下,感谢分享!很有用
26楼2012-03-26 14:46:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

huangzc

金虫 (正式写手)


★★★★★ 五星级,优秀推荐

引用回帖:
18236858楼: Originally posted by lbambool at 2010-01-20 17:26:33:
MS 5.0 LINUX 版小集群并行安装手记
这几天重新配置了一下计算环境,顺便记录下来供同行参考,这次以安装MS5.0为例,实际上4.0,4.2,4.4的版本这几天我都配置过了,方法基本相同。
1.操作系统环境说明
客户端 ...

非常感谢楼主的分享。有个问题想咨询一下楼主:我现在用的服务器装上ms了,但我提交任务的时候只有服务器那几个核在运行,无法分配到各个节点。我看了你上面介绍的方法,重启网关,但是它要求输入密码。你看这是哪里的问题呀?谢谢!期待你的回复和帮助。
29楼2012-04-01 17:09:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

lbambool

木虫 (著名写手)


引用回帖:
18620353楼: Originally posted by huangzc at 2012-04-01 17:09:34:
非常感谢楼主的分享。有个问题想咨询一下楼主:我现在用的服务器装上ms了,但我提交任务的时候只有服务器那几个核在运行,无法分配到各个节点。我看了你上面介绍的方法,重启网关,但是它要求输入密码。你看这是 ...

任务无法分配到各节点可能是安装时使用了root帐号或是没加--type cluster 参数;也可能是没有配置好hpmpi,也可能是网络通信有问题,也有可能是lic的问题,一个一个的排除了,细点心去做,可以成功的。

» 本帖已获得的红花(最新10朵)

30楼2012-04-02 19:37:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

huangzc

金虫 (正式写手)


引用回帖:
18620381楼: Originally posted by lbambool at 2012-04-02 19:37:52:
任务无法分配到各节点可能是安装时使用了root帐号或是没加--type cluster 参数;也可能是没有配置好hpmpi,也可能是网络通信有问题,也有可能是lic的问题,一个一个的排除了,细点心去做,可以成功的。

谢谢!
31楼2012-04-06 10:55:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

huangzc

金虫 (正式写手)


送鲜花一朵
引用回帖:
18620381楼: Originally posted by lbambool at 2012-04-02 19:37:52:
任务无法分配到各节点可能是安装时使用了root帐号或是没加--type cluster 参数;也可能是没有配置好hpmpi,也可能是网络通信有问题,也有可能是lic的问题,一个一个的排除了,细点心去做,可以成功的。

楼主您好!请问服务器MS设置中,rsh和SSH对计算任务分配有影响吗?我现在用的服务器是用的RSH。谢谢!!
32楼2012-04-11 13:02:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

scq123

金虫 (小有名气)


★★★★★ 五星级,优秀推荐

root帐号是什么,集群管理员给了一个帐号,也不知道是不是root帐号,怎么知道呢?
35楼2012-07-07 10:53:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sjzxbe

木虫 (小有名气)


★★★★★ 五星级,优秀推荐

(1)MS6.0 for linux下载地址,(2)详细的在cluster上的安装方法,(3)使用torque提交作业的脚本。很全的。互相学习。请参见
http://muchong.com/bbs/viewthread.php?tid=4702095&page=1
36楼2012-07-13 23:47:35
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

juaner80

铜虫 (初入文坛)


感谢分享,希望能用上!
38楼2013-03-18 10:18:46
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

何处飘零

新虫 (小有名气)


★★★★★ 五星级,优秀推荐

请问您帖子里面“在各节点进行同样的操作,然后将所有id_rsa.pub的内容全并到一个文件里并命名为 authorized_keys2,”这句话怎么操作啊。怎么把各节点的id_rsa.pub的内容合并到一个文件中啊?
48楼2016-10-06 16:50:23
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
简单回复
2010-01-22 12:13   回复  
 
warmhouse12楼
2010-01-22 16:47   回复  
 
zdhlover13楼
2010-01-22 22:35   回复  
 
wjf89111425楼
2012-03-16 23:58   回复  
五星好评  顶一下,感谢分享!
28535206527楼
2012-03-28 11:20   回复  
五星好评  顶一下,感谢分享!
28535206528楼
2012-03-31 18:47   回复  
顶一下,感谢分享!
2012-06-27 15:44   回复  
五星好评  顶一下,感谢分享!
cavediger34楼
2012-07-04 17:48   回复  
五星好评  顶一下,感谢分享!
juaner8037楼
2013-03-18 10:18   回复  
五星好评  顶一下,感谢分享!
2013-05-09 10:27   回复  
五星好评  顶一下,感谢分享!
2013-05-09 10:28   回复  
感谢分享
andyzheng41楼
2013-05-14 15:56   回复  
五星好评  顶一下,感谢分享!
冰淼201242楼
2013-05-15 15:41   回复  
五星好评  顶一下,感谢分享!
冰淼201243楼
2013-05-15 15:41   回复  
送红花一朵
dppeng44楼
2013-05-15 22:36   回复  
五星好评  顶一下,感谢分享!
zhl037345楼
2013-07-17 20:11   回复  
五星好评  顶一下,感谢分享!
dukyaseu46楼
2014-06-24 14:08   回复  
五星好评  顶一下,感谢分享!
103287161747楼
2015-04-16 09:45   回复  
五星好评  顶一下,感谢分享!
相关版块跳转 我要订阅楼主 lbambool 的主题更新
☆ 无星级 ★ 一星级 ★★★ 三星级 ★★★★★ 五星级
普通表情 高级回复(可上传附件)
信息提示
请填处理意见