openEuler 22.03 sp3 LTS, Dell 760, raild卡上挂载了22块盘,使用系统自带的mtp3sas 35.100驱动版本,系统里面只能识别10块盘。
升级mpt3sas驱动到52.00版本驱动后,盘能全部识别,但是会出现掉盘。
使用mpt3sas 43.00.02.00版本驱动,会有一个盘系统里面识别不到。
换成centos8.4的系统,4.18内核,使用35.101 mpt3sas驱动版本,所有盘都能识别出来,也不会有掉盘现象。看起来是openEuler 内核存在兼容性问题。
你方便尝试下在centos8.4上使用mtp3sas 35.100驱动版本是什么情况吗?这样可以判定是不是驱动的问题,我看了下centos8.4上使用的mtp3sas 35.101驱动版本源码,redhat额外打了好多patch。很大可能官方的驱动本身就存在缺陷,只不过是redhat修复了这些问题。下面是redhat使用的35.101驱动版本的源码:
https://oss.oracle.com/ol8/SRPMS-updates/kmod-redhat-mpt3sas-35.101.00.00_dup8.3-1.0.1.el8_3.src.rpm
这是客户现场环境,因为客户催的急,就只能先给客户部署了Centos8.4的了。
当时试过使用Dell官方推荐的redhat 43.00.02.00版本驱动,在openEuler上面编译了rpm包装上去,还是有一块盘识别不出来。
Redhat的43.00.02.00驱动是可信的,这么推测的话,那openEuler系统本身可能还是有些问题。其实最直观有效的排查法是在openEuler上编译安装centos8.4的mtp3sas 35.101驱动版本。不过从你当前的处境,没有试验环境,那就不好试验了。
嗯,只是客户没有这么多时间给测试验证了。看看有没有人也用Dell 760服务器,dell 355i raid卡,盘数量很多的情况下也碰到这个问题了,或者openEuler 内核这一块看看是不是盘数量多的情况下,在这个bug里面提的这种topo下会存在兼容性问题了。https://marc.info/?l=linux-scsi&m=160226366707807&w=2 ,