24小时热门版块排行榜    

查看: 752  |  回复: 4
当前主题已经存档。

gongxd325

至尊木虫 (文坛精英)

[交流] 【原创】自组集群运行Gaussian的一些体会

我们的集群04年就建了,主要做Gaussian计算,现在还运行正常。
和现在的机器配置没法比,用的宝德服务器,总共13个节点,每个配置是:2个3.0G至强CPU(单核),1G内存,70G硬盘,配了个RAID后来烧坏了,还烧了个电源,因为空调出故障温度太高。原来用OpenPBS管理任务,后来没再用,因为调度过程常出问题。
使用集群做Gaussian计算多年,有几点体会和大家交流,也给准备搭集群做量化计算的同仁参考:
(1)Gaussian采用预先确定节点的并行方式,无法动态分配节点,一旦某个节点出问题,整个工作就停了。所以,节点性能一定要可靠。
(2)Gaussian能做多大任务,不是取决于所有节点加起来有多大容量,而主要是单个节点的配置,也就是说,差不多是单个节点能做的任务集群才能做,所以,配置节点时,建议每个节点的配置要好到差不多能单独完成任务,而并行主要可以加快速度。
(3)Gaussian的并行速度和节点数不是成比例的,节点越多,加速得越少,所以,从性价比来说,节点不是越多越好,以现在的机器配置,4个节点并行应该可以了。更多节点可以考虑同时运行多个并行任务。
(4)集群发热和噪音非常厉害,需要好的制冷设备(至少柜机!),最好有单独的摆放空间。
(5)自己建的话对Linux操作系统要比较熟悉。
(6)对稍大的集群,系统和任务管理比较麻烦,最好还是安装现成的集群管理和任务调度软件。
(7)我们的集群可以做到想并行就并行,不想并行时每个节点当独立的机器用,比较灵活。
(8)每个节点的Linux系统安装比较费事,在网上求助过,还没有解决。不知道Linux是否能像Windows系统一样Ghost?
回复此楼
一个人做点好事并不难难的是一辈子做好事!!!
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

jjf_sxnu

铜虫 (正式写手)

★ ★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
lei0736(金币+3,VIP+0):谢谢 8-13 09:04
1)任务系统可以用Torque PBS(OpenPBS的后续)没有太大的问题,应该是很好用的。
2)节点机是可以实现自动部署的。你可以参考How to Install Red Hat Linux via PXE and Kickstart这篇文章。另外有一个笨一点的手工办法,就是将要安装的节点机的硬盘插到一个已经装好的机子上,用dd复制一个系统出来,再改一改网络的参数就可以了。
2楼2009-08-13 08:48:00
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

robertpeter2005

木虫 (正式写手)

★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
lei0736(金币+1,VIP+0):谢谢参与 8-13 10:15
为什么多机并行后计算的时候,每个核负载只有百分之六十几?达不到百分之百阿,而且明显速度不如单机并行阿,不知道是什么原因,一台服务器戴尔T410,主频2.66,双处理器,8核,然后四台处理器为Q8200,主频为2.33的四核机并行集群,集群一共16核,还有一台单机处理器为Q9550,主频为2.83的四核,同样的一道题,在集群上计算时时间都比在戴尔服务器上计算时间长很多,比单机2.83计算时间也长很多,这个现象是不是不正常啊,还是这几个不能这样比阿?那是什么原因呢?16核的计算时间反而不如单机?用的软件是gromacs
3楼2009-08-13 10:12:42
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gongxd325

至尊木虫 (文坛精英)

★ ★
yjcmwgk(金币+2,VIP+0):感谢交流 8-13 13:14
引用回帖:
Originally posted by jjf_sxnu at 2009-8-13 08:48:
1)任务系统可以用Torque PBS(OpenPBS的后续)没有太大的问题,应该是很好用的。
2)节点机是可以实现自动部署的。你可以参考How to Install Red Hat Linux via PXE and Kickstart这篇文章。另外有一个笨一点的 ...

我也装过Torque,只是kill任务时一样会有问题,对于小集群,尤其做Gaussian计算,不要PBS也罢。
谢谢你提供的笨办法,只是还不知道dd怎么用,但给了我一个思路。
之前在网上搜过也请教过Linux批量安装方法,也有你提到的那篇文章,只是还没实践,我是希望多了解些方法。
一个人做点好事并不难难的是一辈子做好事!!!
4楼2009-08-13 11:03:45
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

antediluvian

金虫 (初入文坛)

★ ★ ★
小木虫(金币+0.5):给个红包,谢谢回帖交流
yjcmwgk(金币+2,VIP+0):感谢交流 8-13 13:15
引用回帖:
Originally posted by gongxd325 at 2009-8-13 08:05:
我们的集群04年就建了,主要做Gaussian计算,现在还运行正常。
和现在的机器配置没法比,用的宝德服务器,总共13个节点,每个配置是:2个3.0G至强CPU(单核),1G内存,70G硬盘,配了个RAID后来烧坏了,还烧了个 ...

为什么不试试Rocks,傻瓜化的一站解决方案,操作系统就基本不用操心了。 Gaussian节点并行用的Linda没用过不知道效率怎样,不过就单节点双E5430 SMP并行的效率来看,Gaussian效率相当弱,据师兄的说法如果程序本地编译会好很多,可惜Gaussian似乎还是不卖给中国源码?我一直觉得量化这种对于带宽要求极高的东西,至少用千兆以上互联然后还受CPU总线限制,大负载量情况下AMD比老版Intel的好不少,当然Nehalem理论上要提高很多,准备合适的时候出手。
5楼2009-08-13 12:53:20
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 gongxd325 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见