【运维案例】某业务运行内存不足造成系统卡死,但并未触发oom,可以ping通但无法登陆

产品:openEuler

版本:20.03-SP3

分类:内核 / coredump/crash

来源:现网

[背景及现象描述]

某业务运行内存不足造成系统卡死,但并未触发oom,可以ping通但无法登陆。查看日志发现,正常日志突然结束,后面跟着就是重启的日志。且无vmcore

[原因分析]

/proc/sys/vm/overcommit_memory值被修改,导致业务申请内存不被检查就允许。而业务申请过量内存导致无法触发oom

[解决方法]

首先检查/proc/sys/vm/panic_on_oom值为0,说明已配置oom killer,另外查看kdump服务已开启。 怀疑是申请了过量内存成功,导致系统hang住,以及日志无法落盘。 基于此考虑,检查了/proc/sys/vm/overcommit_memory,值为1。将其改为默认的0后运行业务,成功触发oom,业务进程被kill,符合客户不影响os的需求。

1 个赞