Infinirc
Ubuntu 20.04安裝ConnectX-3 Pro InfiniBand
Ubuntu 20.04安裝ConnectX-3 Pro InfiniBand

Ubuntu 20.04安裝ConnectX-3 Pro InfiniBand

發佈於  星期五,三月 21 2025

我的系統配置

Ubuntu 20.04.6
核心版本:5.15.0-134-generic

可以用

cat /etc/lsb-release

查看

錯誤說明

當我嘗試在運行 5.15 核心的 Ubuntu 20.04 系統上安裝 MLNX_OFED 4.9 驅動時,遇到了以下錯誤:

Error: CONFIG_MLX5_ESWITCH not support kernel version 5.6 or higher (current: 5.15.0-134-generic).

同時,當嘗試安裝較新版本的 MLNX_OFED 時,又會收到另一個錯誤,告訴我 ConnectX-3 設備僅支援 MLNX_OFED 4.9 及更早版本:

System has one or more unsupported device, see below.
ConnectX-3 devices are only supported in MLNX_OFED / mlnx_en 4.9 and below.

這就陷入了兩難局面:

  • 新版核心不支援舊版驅動
  • 新版驅動不支援舊版硬體

解決方案:核心降級

解決這個問題的方法是降級到 Ubuntu 20.04 原始的 5.4 系列核心,該核心與 MLNX_OFED 4.9 驅動相容。

步驟 1:檢查可用的核心版本

首先,我們需要確定系統上有哪些可用的 5.4 核心版本:

apt-cache search linux-image-5.4.0 | grep generic

從輸出中,我們可以找到最新的 5.4 系列核心,例如 linux-image-5.4.0-208-generic。

步驟 2:安裝 5.4 核心和對應的標頭文件

sudo apt install linux-image-5.4.0-208-generic linux-headers-5.4.0-208-generic

安裝過程中,系統會自動更新 GRUB 啟動載入程式設定。

步驟 3:配置 GRUB 使用 5.4 核心啟動

要確保系統在重啟後使用 5.4 核心,需要編輯 GRUB 設定:

sudo nano /etc/default/grub

找到 GRUB_DEFAULT=0 行,將其更改為:

GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 5.4.0-208-generic"

這將設定 GRUB 在啟動時自動選擇 5.4.0-208 核心。

更新 GRUB 設定:

sudo update-grub

步驟 4:重啟系統

sudo reboot

系統重啟後,檢查當前使用的核心版本:

uname -r

應該顯示 5.4.0-208-generic 或您安裝的其他 5.4 版本。

步驟 5:安裝 MLNX_OFED 驅動

現在可以安裝 MLNX_OFED 4.9 驅動了:

cd ~/MLNX_OFED_LINUX-4.9-7.1.0.0-ubuntu20.04-x86_64
sudo ./mlnxofedinstall

驗證

ibstat
ibv_devinfo

截圖 2025-03-21 晚上11.31.29.png

  • HPC
  • Linux
  • Server