你好,
我们共有三台服务器,数据盘使用 LSI 9361-8i RAID 卡组建了 RAID 5,此前在 CentOS 系统下已稳定运行两年以上。然而,在最近两个月内,我们将这三台服务器的操作系统统一更换为 OpenEuler 22.03-LTS-SP4 后,三台服务器均频繁出现 RAID 卡随机掉盘的问题。
最初我们怀疑是 RAID 卡硬件故障所致,因此对三台服务器的 RAID 卡进行了更换,并同步升级了 RAID 卡的固件版本。然而,问题依然存在,RAID 掉盘现象仍时有发生。 报故障的硬盘也换了且换下来的硬盘和阵列卡经检测都是正常的,且每次掉的盘是不固定的。
目前我们正在排查是否为操作系统兼容性问题、驱动支持问题或其他软硬件协同方面的潜在原因。
P
操作系统及raid卡详细信息:
系统版本信息:
[root@aeroport storcli]# uname -a
Linux localhost.localdomain 5.10.0-218.0.0.117.oe2203sp4.x86_64 #1 SMP Wed Jul 10 15:18:06 CST 2024 x86_64 x86_64 x86_64 GNU/Linux
[root@aeroport storcli]# [root@aeroport storcli]# cat /etc/openEuler-release
openEuler release 22.03 LTS
RAID卡信息:
Basics :
Controller = 0
Model = AVAGO MegaRAID SAS 9361-8i
Serial Number = SK74481687
Current Controller Date/Time = 06/10/2025, 04:22:23
Current System Date/time = 06/10/2025, 12:22:25
SAS Address = 500605b00d8b0a20
PCI Address = 00:3b:00:00
Mfg Date = 05/18/18
Rework Date = 00/00/00
Revision No = 14C
Version :
固件包构建版本 = 24.21.0-0159
固件版本 = 4.680.00-8577
CPLD 版本 = 26515-01A
BIOS 版本 = 6.36.00.3_4.19.08.00_0x06180206
HII 版本 = 03.25.05.15
Ctrl-R 版本 = 5.19-0609
预启动 CLI 版本 = 01.07-05:#%0000
NVDATA 版本 = 3.1705.00-0028
启动块版本 = 3.07.00.00-0004
驱动名称 = megaraid_sas
驱动版本 = 07.714.04.00-rc1
问题现象:
系统中有读取 raid5 的 vd 设备 /dev/sdb 的报错

查看 raid 卡日志,有在某个 pd 上读命令超时,导致 vd offline 的日志

三台都有类似的现象,请问是否有遇到过类似的问题,该问题应该如何继续排查 ?