【运维案例】网讯网卡运行网络数据发送程序时死机

版本:openEuler-20.03-sp2

组件:tcp

分类:兼容性

来源:现网

【背景及现象描述】

openEuler 20.03-sp2版本操作系统,在运行客户的网络数据发送程序时出现死机现象,现场测试了多个版本系统内核,同时测试了原版openEuler-kernel-4.19.90-2112.8.0.0131.oe1.aarch64内核,均存在上述死机问题。

cpu为飞腾D2000

网卡为网讯万兆网卡txgbe

网络程序为zmq协议封装的tcp

【原因分析】

分析coredump文件

image

打印bt如下

可以看到挂掉的点在arch_copy_from_user,

查看messages日志,看到网卡触发了pcie故障处理

但是同时有网络收发包,可能地址出错了; Asynchronous SError Interrupt 是cpu访问总线上内存出错了,可以猜测,是网卡驱动的bug。

【解决方法】

查询了openeuler兼容性列表

该网卡当前并不在兼容性列表内,因此建议客户推动网卡厂商去做兼容性验证。

1 个赞