openEuler 22.03 LTS SP4使用LSI 9361-8i raid卡,随机掉盘问题

你好,
我们共有三台服务器,数据盘使用 LSI 9361-8i RAID 卡组建了 RAID 5,此前在 CentOS 系统下已稳定运行两年以上。然而,在最近两个月内,我们将这三台服务器的操作系统统一更换为 OpenEuler 22.03-LTS-SP4 后,三台服务器均频繁出现 RAID 卡随机掉盘的问题。

最初我们怀疑是 RAID 卡硬件故障所致,因此对三台服务器的 RAID 卡进行了更换,并同步升级了 RAID 卡的固件版本。然而,问题依然存在,RAID 掉盘现象仍时有发生。 报故障的硬盘也换了且换下来的硬盘和阵列卡经检测都是正常的,且每次掉的盘是不固定的。

目前我们正在排查是否为操作系统兼容性问题、驱动支持问题或其他软硬件协同方面的潜在原因。

操作系统及raid卡详细信息:
系统版本信息:
[root@localhost storcli]# uname -a
Linux localhost.localdomain 5.10.0-218.0.0.117.oe2203sp4.x86_64 #1 SMP Wed Jul 10 15:18:06 CST 2024 x86_64 x86_64 x86_64 GNU/Linux
[root@localhost storcli]# [root@localhost storcli]# cat /etc/openEuler-release
openEuler release 22.03 LTS

RAID卡信息:
Basics :

Controller = 0
Model = AVAGO MegaRAID SAS 9361-8i
Serial Number = SK74481687
Current Controller Date/Time = 06/10/2025, 04:22:23
Current System Date/time = 06/10/2025, 12:22:25
SAS Address = 500605b00d8b0a20
PCI Address = 00:3b:00:00
Mfg Date = 05/18/18
Rework Date = 00/00/00
Revision No = 14C

Version :

Firmware Package Build = 24.21.0-0159
Firmware Version = 4.680.00-8577
CPLD Version = 26515-01A
Bios Version = 6.36.00.3_4.19.08.00_0x06180206
HII Version = 03.25.05.15
Ctrl-R Version = 5.19-0609
Preboot CLI Version = 01.07-05:#%0000
NVDATA Version = 3.1705.00-0028
Boot Block Version = 3.07.00.00-0004
Driver Name = megaraid_sas
Driver Version = 07.714.04.00-rc1

问题现象:
系统中有读raid5的vd设备/dev/sdb的报错

查看raid卡日志,有在某个pd上读命令超时,导致vd offline的日志

三台都有类似的现象,请问是否有遇到过类似的问题,该问题应该如何继续排查 ?

这个容易复现么?能分享下复现步骤么?服务器型号是什么呢?
容易复现的话。
可以先用dnf命令升级到最新版本kernel看是否有问题,如果最新版本内核没问题,可以更换内核版本排查哪个版本引人的问题。
如果最新内核版本也有问题,可以尝试下 OpenEuler 22.03-LTS-SP3, OpenEuler 22.03-LTS-SP2,OpenEuler 22.03-LTS-SP1和OpenEuler 22.03-LTS-LTS。看哪个版本是没有问题的,来排查下是哪个版本引人的问题。
然后排查具体kernel版本,查看哪个版本kernel引入的问题。
SP3 kernel rpm下载链接如下:
https://dl-cdn.openeuler.openatom.cn/openEuler-22.03-LTS-SP3/update/x86_64/Packages/