记一次Linux服务器内存占用过高的排查过程

今天收到客户反馈一台刚交付的服务器内存占用达到95%以上,客户说自己刚搭建网站,也没有运行高负载的程序,cpu和网络使用率很低,唯独内存占用特别高,让排查一下是什么问题。

 

跟客户要来登录信息后ssh连接服务器,用htop命令查看一下是哪些进程在占用(如果没有安装htop可以使用top命令查看)

 

从上图可以看到有很多个usr/local/sys-collector/collector进程,这些进程占用了大量内存,经分析,该进程应该是服务器供应商的硬件监控程序,因为采集不到ipmi信息,所以就一直等待。这种情况应该是ipmi挂了,遂登录服务器后台查看,果然如此。于是联系驻场运维重新插拔ipmi网线。

 

过一会驻场回复说,已经按要求重新插拔该服务器的网线,但是后台显示ipmi仍然不通,内存占用依旧高居不下。这种ipmi故障如果重新插拔网线不行就只能放电处理了,于是跟客户沟通先关机几分钟,得到许可后用shutdown -h now给服务器关机,然后让驻场把掉服务器电源,1分钟后再开机。

 

等服务器再次开机后,后台显示ipmi已经恢复正常,再次用top命令查看,内存占用已经下来了,于是让客户确认,客户回复说服务器已恢复正常。

阅读剩余
THE END