一次线上oom问题排查记录及spring mvc官方bug提交

本文记录一次线上oom问题的定位过程以及如何解决问题的思路。

很多java的线上问题都可以用类似思路去定位问题以及解决问题,不管是我们自己写的业务bug导致的 或者是框架层的bug. 希望本文可以在排查java问题给到大家一些思路上的帮助。

问题现象

某次周五快要下班的时候,udb登录服务突然有大波告警,赶紧登上机器排查原因,回家吃晚饭的时间又要推迟咯。

一会就有用户反馈上来说 登录不上。二话不说,先重启机器,保留一台现场留作分析。事实上,重启之后,过段时间又有告警上来了。

原因定位

首先使用top命令,查看进程状态,发现app_lgn服务的进程占用cpu异常;

然后查看java的垃圾回收情况

jstat -gcutil pid 1000 100

发现进程确实在频繁地进行着FullGC,结合cmdb上的机器监控以及进程的gc日志,可以确定java 堆内存中因为部分对象释放不了,进入老年代,老年代不断增大,触发FullGC,FullGC的时候,会导致cpu飙升。
一次线上oom问题排查记录及spring mvc官方bug提交_第1张图片

使用jmap确认java堆内存的使用情况:

jmap -heap 56608
<

你可能感兴趣的:(java,java,spring,oom)