| 查看: 2482 | 回复: 9 | |||
| 当前主题已经存档。 | |||
| 当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖 | |||
huangyc木虫 (正式写手)
|
[交流]
【求助】如何跨节点并行
|
||
|
RT。每个节点8CPU,若想跨节点并行,如一次使用16CPU,如何实现,谢谢 写脚本的话请详细点告诉我,我Linux基础不好 |
» 猜你喜欢
博士读完未来一定会好吗
已经有6人回复
小论文投稿
已经有3人回复
Bioresource Technology期刊,第一次返修的时候被退回好几次了
已经有9人回复
心脉受损
已经有3人回复
到新单位后,换了新的研究方向,没有团队,持续积累2区以上论文,能申请到面上吗
已经有8人回复
申请2026年博士
已经有6人回复
请问哪里可以有青B申请的本子可以借鉴一下。
已经有5人回复
wuli8
荣誉版主 (知名作家)
…………
- 1ST强帖: 2
- 应助: 35 (小学生)
- 贵宾: 12.924
- 金币: 20188.4
- 散金: 15888
- 红花: 88
- 沙发: 4
- 帖子: 7840
- 在线: 1114.6小时
- 虫号: 465889
- 注册: 2007-11-23
- 专业: 物理学I
- 管辖: 计算模拟
★
小木虫(金币+0.5):给个红包,谢谢回帖交流
小木虫(金币+0.5):给个红包,谢谢回帖交流
|
简单组建linux集群及并行编译vasp过程 我们现在主要是用做高性能计算,下面就是我的集群的组建过程。 集群的硬件环境:做一个集群,节点机器的硬件最好相同,这样计算的效率就会高很多,同时组建集群也相对容易。以下是我的机器的配置情况(全新,组装)另外要说的是,我们的节点机没有配置显示器,全部工作由服务器完成。连接就是通过交换机连接,和一般局域网连接相同。 服务器:P4 3.2, 内存2 G ,硬盘:160G ,显示器 ,网卡:2个千兆网卡 (money:8千多) 节点(10台): P4 3.2, 内存:2 G, 硬盘:80G , 网卡:千兆网卡 (5千多每台) 华为24口千兆交换机(4千多) 集群软件环境:建一个简单的集群,其实并不难,主要配置nis,nfs,rsh,mpi就好了。推荐大家看一本书《微机集群组建、优化和管理》车静光著,机械工业出版社。我的集群,采用suse9.3,操作系统其实也很重要,这次试了很多操作系统,redhat9,rhas4无法识别网卡,rocks无法安装,如果硬件没有什么问题,建议大家可以试下rocks cluster这个集群系统,rocks集操作系统和集群于一体,安装完成并行环境就已经建立,而且还配备了pbs管理软件,非常简单,容易上手,只是我的硬件不太兼容,本来是想装rocks的,无奈,只有自己动手了。 Suse配置nis,nfs非常简单,因为suse强大的yast,就像window一样方便,只要鼠标轻点几下就ok。 1.Linux系统的安装,suse安装也非常简单,在此不想详细讲太多,主要是在分区的时候要注意,最要自己手动分区,对于服务器来说,最好能分一个独立的分区/home,因为节点机器要通过nfs共享服务器的/home。注意的是一下几个软件包一定要安装nfs(nfs-utils),nis(ypbind),rsh(rsh-server)。 2.基本的网络配置(通过yast的网卡配置) 服务器的:192.168.1.253 hostname:node0 域名:node0.cluster 节点机器:192.168.1-192.168.1.10 hostname:node1-node10 域名:node*.cluser 掩码:255.255.255.0 3.服务器的配置 3.1.Nfs设置 NFS(NetWork File System)是一种使用比较多的网络文件系统,它以它的安装容易,使用方便得到很多Linux爱好者的使用。在使用NFS时,我们把需要共享的分区或者文件按照一定的规范共享出去,想使用这个资源的机器使用mount 命令把共享的资源加载到自己的系统上,然后就可以像使用自己的本地文件系统一样方便。 进入图形yast-network-nfs server,之后开始配置, 点击add directory:之后设置两个共享目录, /home,/usr/local/,然后加入共享这两个目录的主机通配符192.168.1.0/255.255.255.0 rw,root_squash, sync。其实配置nfs就是修改/etc/exports 文件,你也可以直接修改成 /home/ 192.168.1.1/255.255.255.0(rw,root_squash,sync) /usr/local 192.168.1.1/255.255.255.0(rw,root_squash,sync) Ok,NFS就这样配置好了。 3.2 NIS的配置 NIS(Network Information Service)是实现网络上各Linux机器之间的重要数据分享。这些数据包括用户帐号,密码,组文件,主机文件,等等。在集群中我们要做到单一的镜象就需要NIS的一些服务。比如我们不需要在每个节点上建立各自的用户,而是在master上建立一个用户以后,就同时在其它的节点上能够访问到这个用户。 下面是我的配置过程: Yast-network-nis server-create nis master server之后填入nis domain name,就是域名,我们填node0.Cluster,之后一些信息一般选默认就可以了,之后要配置hosts: netmask:255.255.255.255 network:127.0.0.1 netmask:255.255.0.0 network:192.168.0.0 ok,之后完成,进入/var/yp目录,执行make就最后完成nis的配置。注意的是如果你新建用户了,要注意执行make命令更新nis信息。 最后启动网络服务yast-network-start service进入设置,开启shell,login两项服务。 3.3 rsh的配置 注意修改这两个文件/etc/hosts /etc/hosts.equiv 所建立用户的.rhosts,这个文件和/hosts.equiv文件内容设置相同。 Hosts的文件信息,最后修改成: 127.0.0.1 localhost 192.168.1.253 node0.cluster node0 192.168.1.1 node1.cluster node1 192.168.1.10 node10.cluster node10 Hosts.equiv: Node0 Node1 Node10 把所有节点的信息输入到这两个文件,等节点机器的配置好后,你就可以用命令rlogin node*,登陆节点机器,这样就可以对节点机器进行操作了。 节点机器的配置 配置nis,nfs的情况基本和服务器类似,只是进入yast的时候选择的是nis客户端,和nfs客户端即可,这里不再详细说明。之后启动rsh服务,启动过程,编辑/etc/xinetd.d/rsh 将其中内容“disable=yes”改成“disable=no”,重新restart xinetd,激活rsh #chkconfig –level 345 rsh on #/etc/rc.d/xinetd restart,这样就配置好rsh了, Lam-mpi的编译安装使用。 (1)到lam-mpi官方网站www.lam-mpi.org下载最新的源代码,注意不要下载rpm格式的,要自己编译tar.gz格式的 (2)用“tar zxvf lam-7.1.1.tar.gz”解压 (3) 进入该目录配置编译信息(后面编译vasp中的makefile有) ./configure—prefix =/usr/local/lam-7.1.1 ――with CFLAGS=―O ―with –fc=ifort ―― with ―f77flags=―O ―without ―romio 几点说明,前面是配置lam-mpi的安装路径/usr/local/lam-7.1.1,指定的编译器是intel的fortran编译器ifort (4)然后执行make进行编译,最后执行make install安装,ok成功安装lam-mpi 之后最好把/usr/local/lam-7.1.1/bin加入到搜索路径中,具体做法vi编辑/etc/profile找到 #make path more comfortable #if test ………then PATH=/usr/local/bin:/usr/bin:/usr/X11R6/bin:/usr/local/lam-7.1.1/bin Ok, 这样就设置好路径了,注意的是服务器和节点机器都要设置,因为我们是通过nfs共享lam。之后新建一个文件,lamhosts,输入node0,执行lamboot - lamhosts 如果显示有lam的相关信息,那说明安装成功。 之后顺便说一下lam的使用的几个命令,注意执行lam不能在root下操作 1)新建一个文件,说明要使用并行计算的几个机器,vi lamhosts 加入你要计算的机器,比如node0 node1 node2 …每个机器一行 2) lamboot -v lamhosts 启动lam-mpi 3) mpirun - np * program *为你运行机器的台数,progran为并行程序,在vasp中我就直接运行mpirun -np 10 vasp 4)运行结束,记得wipe -v lamhosts 释放机器,否则节点机器无法关机,我经常忘记执行这个命令,导致关机的时候无法正常关机.。 Ifc8.0并行vasp的编译(参考了本论坛的[转帖]VASP程序的编译(valenhou)) 感觉vasp安装不同操作系统不同的版本情况有很大不一样,在suse中并行vasp4.6我编译不成功,并行vasp4.5成功,串行4.6也成功,在rhas4.0中串行vasp4.6无法成功编译,vasp4.5则没有问题,大家如果编译不成功的话,可以试试不同版本。下面讲讲我的并行编译。首先要安装好fortran的编译器ifc这个不详细讲了,重要是要配置好路径,节点机器也是同样问题,ifc可以通过nfs共享,节点机器只要设置好路径就好了。 1.下载数学库libgoto,我的是intel平台我下libgoto_prescott32p-r1.00.so,之后我把他放在vasp上一级目录/usr/local/lib中 2.解压vasp.4.5.tar.gz和vasp.4.lib.tar.gz,注意把vasp安装在usr/local的共享目录中 Tar zxvf vasp.4.5.tar.gz tar zxvf vasp.4.lib.tar.gz 3. cd vasp.4.lib cp makefile.linux_ifc_P4 makefile vi makefile 把当中的编译命令ifc改为ifort,在8.0中的命令是ifort不是ifc 之后执行make命令得到libdmy.a。 4. cd vasp.4.5 cp makefile.linux_ifc_P4 makefile vi makefile 把前面第50行的FC=IFC部分用#注释掉,第80-82的cpp部分也注释掉 之后就是136行blas=/usr/local/lib/libgoto_prescott32p-r1.00.so -lsvml LAPACK用139行vasp自带的lapack, 把第166行和167行有关FFT3D的行前加上注释号,如下面的 #FFT3D = fft3dfurth.o fft3dlib.o #FFT3D = fftw3d.o fft3dlib.o /opt/libs/fftw-3.0.1/lib/libfftw3.a 之后把202,203行mpi部分fc=mpif77的#去掉 把212行有关CPP的行前的注释号去掉 把226和227行有关SCA的行,加上注释号 把239和243行有关FFT3D的行,改成如下的内容: # FFT: fftmpi.o with fft3dlib of Juergen Furthmueller FFT3D = fftmpi.o fftmpi_map.o fft3dlib.o # fftw.3.0.1 is slighly faster and should be used if available #FFT3D = fftmpiw.o fftmpi_map.o fft3dlib.o /opt/libs/fftw-3.0.1/lib/libfftw3.a 把这些都修改后,保存,再make得到vasp的可执行程序,为了和串行区别之后我把vasp修改为vaspmpi,copy到/bin中去。这样就大功告成了。 |

9楼2009-06-17 12:34:17
2楼2009-04-28 16:22:06
huangyc
木虫 (正式写手)
- 应助: 2 (幼儿园)
- 金币: 2242.1
- 散金: 12
- 红花: 2
- 帖子: 411
- 在线: 312.5小时
- 虫号: 624241
- 注册: 2008-10-12
- 专业: 理论和计算化学
3楼2009-04-28 17:59:42
4楼2009-04-29 16:21:57













回复此楼