| 查看: 1268 | 回复: 0 | |||
[交流]
IB交换机配置
|
|
1、驱动程序安装 在操作系统安装后,单独安装适用于您的操作系统的 IB 网卡驱动程序。下载地址: NVIDIA InfiniBand Software | NVIDIA https://developer.nvidia.com/networking/infiniband-software 这里包含很多平台的驱动,Linux用第一个: Linux InfiniBand Drivers (nvidia.com) https://network.nvidia.com/produ ... rs/linux/mlnx_ofed/ 选择Download: 图片 根据版本去找适合的区别操作版本驱动: 图片 下载完 ISO 文件后,先挂载 ISO 文件到 OFED_INSTALL 目录下: $ mkdir OFED_INSTALL $ chmod +x MLNX_OFED_LINUX-5...-rhel7.5-x86_64.iso $ mount MLNX_OFED_LINUX-5...-rhel7.5-x86_64.iso OFED_INSTALL/ $ cd OFED_INSTALL 进入 OFED_INSTALL 目录,OFED_INSTALL 目录下的文件内容如下: $ ls -l total 381 -r-xr-xr-x 1 root root 2848 Apr 2 14:50 common_installers.pl -r-xr-xr-x 1 root root 7304 Apr 2 14:50 common.pl -r-xr-xr-x 1 root root 24861 Apr 2 14:50 create_mlnx_ofed_installers.pl -r--r--r-- 1 root root 8 Apr 2 14:50 distro dr-xr-xr-x 8 root root 2048 Apr 2 14:50 docs -r-xr-xr-x 1 root root 4838 Apr 2 14:50 is_kmp_compat.sh -r--r--r-- 1 root root 956 Apr 2 14:50 LICENSE -r-xr-xr-x 1 root root 27786 Apr 2 14:50 mlnx_add_kernel_support.sh -r-xr-xr-x 1 root root 285744 Apr 2 14:50 mlnxofedinstall -r--r--r-- 1 root root 2764 Apr 2 14:50 RPM-GPG-KEY-Mellanox dr-xr-xr-x 5 root root 2048 Apr 2 14:51 RPMS dr-xr-xr-x 3 root root 8192 Apr 2 14:53 RPMS_UPSTREAM_LIBS dr-xr-xr-x 2 root root 2048 Apr 2 14:50 src -r-xr-xr-x 1 root root 15096 Apr 2 14:50 uninstall.sh 这里面的文件作用如下: · mlnxofedinstall: Mallenox OFED 驱动的默认安装脚本,大多数情况下用这个脚本安装驱动即可工作 · ofed_uninstall.sh: Mallenox OFED 驱动的卸载脚本,可以卸载掉所有 OFED 驱动相关的文件 · mlnx_add_kernel_support.sh: 对应本机内核的驱动定制脚本,如果需要在 OFED 源代码的基础上编译驱动模块,则需要先用这个脚本进行驱动定制 · RPMS: 生成 RPM 安装包的目录 · src: OFED 模块的源码目录 · docs: 存放说明文档的目录 我们输入 mlnxofedinstall 命令来安装 Mallenox OFED 驱动: $ ./mlnxofedinstall Logs dir: /tmp/MLNX_OFED_LINUX.20820.logs ... Do you want to continue?[y/N]:y Starting MLNX_OFED_LINUX-5... installation ... Installing mlnx-ofa_kernel RPM Preparing... ######################################## ... ... ... Installation finished successfully. Preparing... ################################# [100%] Updating / installing... 1:mlnx-fw-updater-5... ################################# [100%] Added 'RUN_FW_UPDATER_ONBOOT=no to /etc/infiniband/openib.conf Attempting to perform Firmware update... The firmware for this device is not distributed inside Mellanox driver: 05:00.0 (PSID: ) To obtain firmware for this device, please contact your HW vendor. Failed to update Firmware. See /tmp/MLNX_OFED_LINUX..logs/fw_update.log To load the new driver, run: /etc/init.d/openibd restart 使用 /etc/init.d/openibd restart 命令重启 openibd 服务: $ /etc/init.d/openibd restart Unloading HCA driver: [ OK ] Loading HCA driver and Access Layer: [ OK ] 此时 openibd 服务会导入新的 HCA driver,之后开启 opensm 服务并设置为开机启动: $ /etc/init.d/opensmd start $ chkconfig opensmd on 此时用 ibv_devinfo 命令确认 IB 网卡正常工作,state 对应 PORT_ACTIVE 表示 IB 网卡已经正常驱动,如下所示: $ ibv_devinfo hca_id: mlx5_0 transport: InfiniBand (0) fw_ver: 10.16.1038 node_guid: ... ... port: 1 state: PORT_ACTIVE (4) max_mtu: 4096 (5) active_mtu: 4096 (5) sm_lid: 1 port_lid: 1 port_lmc: 0x00 link_layer: InfiniBand port: 2 state: PORT_DOWN (1) ... 2、网络配置 IB 设备的通信过程主要是基于 RDMA,数据交换并不需要 TCP/IP 来参与。但是很多应用程序经常需要先通过网络层的 IP 地址来定位设备,所以 IB 网卡上也是支持IP设置的。 详细参考:IP over InfiniBand (IPoIB) https://docs.nvidia.com/networki ... ion?pageId=12013510 网络设置好了,都有哪些服务需要通过IB网络通信呢? 在HPC集群中,以下服务通常需要通过IB(InfiniBand)网络进行高性能通信: MPI通信:MPI(Message Passing Interface)是一种常用的并行编程模型,在HPC中广泛使用。MPI程序通过消息传递进行节点间的通信和协调。由于IB网络具有低延迟和高带宽的特点,它是执行MPI通信的理想选择。 文件系统:在HPC集群中,通常会使用分布式文件系统,如Lustre、GPFS等。这些文件系统利用IB网络的高速数据传输能力来实现节点间的快速数据共享和访问。 NFS 也可以通过IB网络通信,需要在安装驱动的时候加入支持参数: ./mlnxofedinstall --with-nfsrdma |
» 猜你喜欢
【复旦大学】二维材料方向招收2026年博士研究生1名
已经有0人回复
北京纳米能源与系统研究所 王中林院士/曹南颖研究员课题组2026级硕/博/博后招生
已经有10人回复
物理学I论文润色/翻译怎么收费?
已经有109人回复
荷兰Utrecht University超快太赫兹光谱王海教授课题招收2026 CSC博士生
已经有23人回复
反铁磁体中的磁性切换:两种不同的机制已成功可视化
已经有0人回复
求标准粉末衍射卡号 ICDD 01-076-1802
已经有0人回复
新西兰Robinson研究所招收全奖PhD
已经有0人回复
石墨烯转移--二氧化硅衬底石墨烯
已经有0人回复













回复此楼