24小时热门版块排行榜    

查看: 1430  |  回复: 15
当前主题已经存档。

yfshao

新虫 (小有名气)

[交流] [讨论] cluster集群规划方案是否可以直接用于刀片服务器?

大家好,有个问题想和大家讨论一下。
我们组一直在用由PC组成的cluster集群。硬件配置是
几年前的dell PC(1G cpu,2G内存)10台,普通网卡,网线。
方案是linux+nfs+nis+rsh(ssh)。
现在我们要买dell 的刀片服务器,请问我们的集群规划方案是否还合适呢?
另外,由于我们的刀片是AMD Operon 64 位处理器,在选择操作系统和编译器方面有哪些需要注意的呢?
有经验的请指点一下。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wgpig

木虫 (小有名气)


spur(金币+1,VIP+0):3Q!欢迎常来小木虫!
这个要取决于你们集群的规模,运算的软件,采用的并行环境有关。太笼统了,可否详细点。
2楼2008-06-12 14:34:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yfshao

新虫 (小有名气)

是这样。我们的刀片是AMD Operon 64位。一个刀片有两个cpu,每个cpu为四核,每个刀片8G内存,146G硬盘,千兆网。共16个刀片。

组内都是做第一原理的。8个人,全部采用开源软件。

采用什么软件应该关系不大吧?我们的软件和编译器一直都是用的开源或非商业版的(像Iintel fortran /c++编译器)

[ Last edited by yfshao on 2008-6-12 at 17:23 ]
3楼2008-06-12 17:20:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

shenjjjj

新虫 (初入文坛)

没问题的,都是这么做得,不过千兆网的性能应该是并行运算中最大的瓶颈了,你们机器配置那么好,应该用更好的网络环境。当然,如果对并行要求不是很高也无所谓了。
4楼2008-06-12 20:53:08
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yfshao

新虫 (小有名气)

机器是老板选好的,包括千兆网,我只是干些体力活。
不过主机如何规划,某一直在琢磨。因为有16个146G的硬盘,和8,9个作第一原理的用户。
下面是我的计划,不知道是否可行。
1. 安装64位的linux操作系统(哪位可以推荐一下,什么比较好)
2.在硬盘划分上,采用鸟哥的方案:每个硬盘划出/,/usr,//home,/var,/swap, /disk1几个分区。把服务器上的/home作NFS共享,把16个 /disk1通过NFS共享给服务器和每个节点,充分利用硬盘。
3. NIS 帐户共享
4.设置rsh和ssh服务
5. 下载64位编译器,把我们用的开源软件都编译成64位的。
各位以为如何?
请不吝赐教!
5楼2008-06-12 21:57:15
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wgpig

木虫 (小有名气)

★ ★ ★
zzgyb(金币+3,VIP+0):谢谢你的参与,化学区正在举办十大“耐思”版主评选,http://emuch.net/bbs/viewthread.php?tid=845527,欢迎你去投票支持计模版版主!
我不做第一性原理的。只是经常给别人做机群,还是有一些了解。就我的经验,要全部利用上16个节点跑并行,千兆的交换机是计算的主要瓶颈所在。建议尽可能采用好的交换机。不行的话就用方案B(下面再讲)。
并行的环境包括编译器,数学库,以及MPI全部采用INTEL的或者是PGI的。这样整个环境能够整合的比较好,要是自己编译数学库,和MPICH等等话,问题多多。我们的任务是科研,没有必要在这上面浪费太多功夫。
磁盘的划分,没有什么特别的要求的。不过鸟哥的那个不太好。首先,你是否采用盘阵列,是否用RAID。分区的话,把HOME分出去,另外划分一个专门安装软件的分区,也共享出去,专门的文件独立分区共享。
OS REDHAT基本是唯一的选择。不是说别的不好,或者不行。主要是一般的开源代码都会在REDHAT下调试过。
NIS,NFS,RSH(SSH)是必须配备的。LZ看起来很熟悉了。要费点心思的是网络调优。不用我罗嗦。
6楼2008-06-12 22:44:16
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wgpig

木虫 (小有名气)

PS才发现这个 spur(金币+1,VIP+0):3Q!欢迎常来小木虫!
其实我是小木虫第一批的注册人了。中间服务器坏了好几次。先把我几百金币还我。
7楼2008-06-12 22:46:38
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yfshao

新虫 (小有名气)

感谢5楼的耐心帮助。
如果是普通PC组成的集群,比如dell或Hp的,还比较熟悉一些。因为我们一直在用这样的集群。

现在我们购买的刀片服务器是DELL PowerEdge M605. 每个刀片上面有DELL的 256M CERC6 RAID 控制器,还有一套DELL OpenManage管理软件。请问这两个东西是做什么的呢?  我们的交换机是DELL M6220千兆网三层交换机

操作系统需要购买企业版吗?一般支持x86_64位的开源系统就可以吧?suse也应该有比较稳定的吧?我自己用的PC上就是suse10.1。

其实现在我们也有些无奈。科研模式还有些作坊式,没有做到流水线,专门化 。像我们所,因为每个计算组从属于不同的课题大组,所以很分散,而且规模又都不是很大,所以不会请专门的人来管理集群。一般都是组里的学生自己全面负责。这样的好处是,对于学生,比如我,也不失为一个学习的机会。 缺点是设备高效使用和维护不会每个组都做得很好。事实上,我了解到有些组的管理就比较乱。

sorry,说了些没有的。总之,老板让我负责新设备,我只好请教大家,继续学习了。
8楼2008-06-13 09:42:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

yqzhang6518

金虫 (正式写手)

可以安装结群管理系统,这样就方便多了
9楼2008-06-13 10:07:30
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

wgpig

木虫 (小有名气)

★ ★ ★
zzgyb(金币+3,VIP+0):谢谢你的参与,化学区正在举办十大“耐思”版主评选,http://emuch.net/bbs/viewthread.php?tid=845527,欢迎你去投票支持计模版版主!
用过DELL的1850,2850系列的。256M CERC6 RAID 就是DELL集成的RAID,要是对RAID不熟悉,可以先GOOGLE,设置的时候让DELL的人来做。OpenManage是DELL的管理软件,我们没有购买他们的软件。OpenManage好用不好用不好评价。我这里装的是ganglia,我也推荐你使用这个。
RH没有必要购买他们的服务。或者用社区版那个也行,64的U就用64的OS吧。suse或者别的服务器版本的OS应该都可以,只是在某些情况下要多费点时间。

要是对cluster配置不熟悉可以用rockcluster,非常不错的。
10楼2008-06-13 18:21:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 yfshao 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见