24小时热门版块排行榜    

查看: 1271  |  回复: 0

A宝禄计算

银虫 (初入文坛)

[交流] IB交换机配置

1、驱动程序安装


在操作系统安装后,单独安装适用于您的操作系统的 IB 网卡驱动程序。下载地址:


NVIDIA InfiniBand Software | NVIDIA



https://developer.nvidia.com/networking/infiniband-software



这里包含很多平台的驱动,Linux用第一个:

Linux InfiniBand Drivers (nvidia.com)

https://network.nvidia.com/produ ... rs/linux/mlnx_ofed/



选择Download:

图片

根据版本去找适合的区别操作版本驱动:

图片



下载完 ISO 文件后,先挂载 ISO 文件到 OFED_INSTALL 目录下:

$ mkdir OFED_INSTALL
$ chmod +x MLNX_OFED_LINUX-5...-rhel7.5-x86_64.iso
$ mount MLNX_OFED_LINUX-5...-rhel7.5-x86_64.iso OFED_INSTALL/
$ cd OFED_INSTALL


进入 OFED_INSTALL 目录,OFED_INSTALL 目录下的文件内容如下:

$ ls -l
total 381
-r-xr-xr-x 1 root root   2848 Apr  2 14:50 common_installers.pl
-r-xr-xr-x 1 root root   7304 Apr  2 14:50 common.pl
-r-xr-xr-x 1 root root  24861 Apr  2 14:50 create_mlnx_ofed_installers.pl
-r--r--r-- 1 root root      8 Apr  2 14:50 distro
dr-xr-xr-x 8 root root   2048 Apr  2 14:50 docs
-r-xr-xr-x 1 root root   4838 Apr  2 14:50 is_kmp_compat.sh
-r--r--r-- 1 root root    956 Apr  2 14:50 LICENSE
-r-xr-xr-x 1 root root  27786 Apr  2 14:50 mlnx_add_kernel_support.sh
-r-xr-xr-x 1 root root 285744 Apr  2 14:50 mlnxofedinstall
-r--r--r-- 1 root root   2764 Apr  2 14:50 RPM-GPG-KEY-Mellanox
dr-xr-xr-x 5 root root   2048 Apr  2 14:51 RPMS
dr-xr-xr-x 3 root root   8192 Apr  2 14:53 RPMS_UPSTREAM_LIBS
dr-xr-xr-x 2 root root   2048 Apr  2 14:50 src
-r-xr-xr-x 1 root root  15096 Apr  2 14:50 uninstall.sh


这里面的文件作用如下:

· mlnxofedinstall: Mallenox OFED 驱动的默认安装脚本,大多数情况下用这个脚本安装驱动即可工作

· ofed_uninstall.sh: Mallenox OFED 驱动的卸载脚本,可以卸载掉所有 OFED 驱动相关的文件

· mlnx_add_kernel_support.sh: 对应本机内核的驱动定制脚本,如果需要在 OFED 源代码的基础上编译驱动模块,则需要先用这个脚本进行驱动定制

· RPMS: 生成 RPM 安装包的目录

· src: OFED 模块的源码目录

· docs: 存放说明文档的目录



我们输入 mlnxofedinstall 命令来安装 Mallenox OFED 驱动:

$ ./mlnxofedinstall
Logs dir: /tmp/MLNX_OFED_LINUX.20820.logs
...
Do you want to continue?[y/N]:y


Starting MLNX_OFED_LINUX-5... installation ...

Installing mlnx-ofa_kernel RPM
Preparing...                          ########################################

...
...
...

Installation finished successfully.

Preparing...                 ################################# [100%]
Updating / installing...
   1:mlnx-fw-updater-5...    ################################# [100%]

Added 'RUN_FW_UPDATER_ONBOOT=no to /etc/infiniband/openib.conf

Attempting to perform Firmware update...
The firmware for this device is not distributed inside Mellanox driver: 05:00.0 (PSID: )
To obtain firmware for this device, please contact your HW vendor.

Failed to update Firmware.
See /tmp/MLNX_OFED_LINUX..logs/fw_update.log
To load the new driver, run:
/etc/init.d/openibd restart


使用 /etc/init.d/openibd restart 命令重启 openibd 服务:

$ /etc/init.d/openibd restart
Unloading HCA driver:                                      [  OK  ]
Loading HCA driver and Access Layer:                       [  OK  ]


此时 openibd 服务会导入新的 HCA driver,之后开启 opensm 服务并设置为开机启动:

$ /etc/init.d/opensmd start
$ chkconfig opensmd on
此时用 ibv_devinfo 命令确认 IB 网卡正常工作,state 对应 PORT_ACTIVE 表示 IB 网卡已经正常驱动,如下所示:

$ ibv_devinfo
hca_id:  mlx5_0
transport:      InfiniBand (0)
fw_ver:        10.16.1038
node_guid:     ...
...

port:  1
state:      PORT_ACTIVE (4)
max_mtu:    4096 (5)
active_mtu:    4096 (5)
sm_lid:      1
port_lid:    1
port_lmc:    0x00
link_layer:    InfiniBand

port:  2
state:      PORT_DOWN (1)
...


2、网络配置


IB 设备的通信过程主要是基于 RDMA,数据交换并不需要 TCP/IP 来参与。但是很多应用程序经常需要先通过网络层的 IP 地址来定位设备,所以 IB 网卡上也是支持IP设置的。



详细参考:IP over InfiniBand (IPoIB)

https://docs.nvidia.com/networki ... ion?pageId=12013510



网络设置好了,都有哪些服务需要通过IB网络通信呢?



在HPC集群中,以下服务通常需要通过IB(InfiniBand)网络进行高性能通信:
MPI通信:MPI(Message Passing Interface)是一种常用的并行编程模型,在HPC中广泛使用。MPI程序通过消息传递进行节点间的通信和协调。由于IB网络具有低延迟和高带宽的特点,它是执行MPI通信的理想选择。
文件系统:在HPC集群中,通常会使用分布式文件系统,如Lustre、GPFS等。这些文件系统利用IB网络的高速数据传输能力来实现节点间的快速数据共享和访问。
NFS 也可以通过IB网络通信,需要在安装驱动的时候加入支持参数:

./mlnxofedinstall --with-nfsrdma
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 A宝禄计算 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见