你好,
我们共有三台服务器,数据盘使用 LSI 9361-8i RAID 卡组建了 RAID 5,此前在 CentOS 系统下已稳定运行两年以上。然而,在最近两个月内,我们将这三台服务器的操作系统统一更换为 OpenEuler 22.03-LTS-SP4 后,三台服务器均频繁出现 RAID 卡随机掉盘的问题。
最初我们怀疑是 RAID 卡硬件故障所致,因此对三台服务器的 RAID 卡进行了更换,并同步升级了 RAID 卡的固件版本。然而,问题依然存在,RAID 掉盘现象仍时有发生。 报故障的硬盘也换了且换下来的硬盘和阵列卡经检测都是正常的,且每次掉的盘是不固定的。
目前我们正在排查是否为操作系统兼容性问题、驱动支持问题或其他软硬件协同方面的潜在原因。
操作系统及raid卡详细信息:
系统版本信息:
[root@localhost storcli]# uname -a
Linux localhost.localdomain 5.10.0-218.0.0.117.oe2203sp4.x86_64 #1 SMP Wed Jul 10 15:18:06 CST 2024 x86_64 x86_64 x86_64 GNU/Linux
[root@localhost storcli]# [root@localhost storcli]# cat /etc/openEuler-release
openEuler release 22.03 LTS
RAID卡信息:
Basics :
Controller = 0
Model = AVAGO MegaRAID SAS 9361-8i
Serial Number = SK74481687
Current Controller Date/Time = 06/10/2025, 04:22:23
Current System Date/time = 06/10/2025, 12:22:25
SAS Address = 500605b00d8b0a20
PCI Address = 00:3b:00:00
Mfg Date = 05/18/18
Rework Date = 00/00/00
Revision No = 14C
Version :
Firmware Package Build = 24.21.0-0159
Firmware Version = 4.680.00-8577
CPLD Version = 26515-01A
Bios Version = 6.36.00.3_4.19.08.00_0x06180206
HII Version = 03.25.05.15
Ctrl-R Version = 5.19-0609
Preboot CLI Version = 01.07-05:#%0000
NVDATA Version = 3.1705.00-0028
Boot Block Version = 3.07.00.00-0004
Driver Name = megaraid_sas
Driver Version = 07.714.04.00-rc1
问题现象:
系统中有读raid5的vd设备/dev/sdb的报错
查看raid卡日志,有在某个pd上读命令超时,导致vd offline的日志
三台都有类似的现象,请问是否有遇到过类似的问题,该问题应该如何继续排查 ?