记一次线上内存溢出问题排查

最近线上的服务出现了一次内存溢出的报错,但是服务进程在GC后自动恢复了,记录下本次问题的排查过程。

1.服务日志监控,在某个时间点,日志中有java.lang.OutOfMemoryError:Java heap space的报错,并且服务线程数有飙升的情况,在经历GC后,服务恢复。

2.由于线上以前出现过JVM内存溢出的问题,在JVM启动参数中加了 内存溢出时,dump出当前堆内存快照的指令
-XX:+HeapDumpOnOutOfMemoryError

3.可以在服务的tomcat日志输出目录下,找到异常发生时的快照。文件名为 *.hprof 格式。线上JVM的堆内存设置为-Xmx1792m -Xms1792m ,dump出的堆内存快照为1.6个G的大小,即使从服务器上down到本地,eclipse的MAT插件也无法加载如此大的文件,会报内存溢出。

4.依然采用mat去分析 hprof 文件,借助一台内存比较大的linux服务器
下载地址
从上面的下载地址中,选择合适的版本下载,需要注意的是,高版本的MAT需要由高版本的JDK支持。我们线上使用的是JDK8,所以我下载的是MemoryAnalyzer-1.8.0.20180604-linux.gtk.x86_64.zip。
解压缩后,进入 mat 目录,修改一下mat的配置文件 MemoryAnalyzer.ini

#多版本JDK的时候,指定JDK运行版本
-vm
/home/work/opdir/link/java8-update/bin/java
-startup
plugins/org.eclipse.equinox.launcher_1.5.0.v20180512-1130.jar
--launcher.library
plugins/org.eclipse.equinox.launcher.gtk.linux.x86_64_1.1.700.v20180518-1200
#JVM内存大小
-vmargs
-Xmx3072m

执行文件解析的命令

./ParseHeapDump.sh java_pid23196.hprof org.eclipse.mat.api:suspects org.eclipse.mat.api:overview org.eclipse.mat.api:top_components

解析完成后,java_pid23196.hprof的同级目录下,会生成.zip压缩格式的解析报告。将解析报告下载到本地

5.打开java_pid23196_Leak_Suspects目录下的index网页,可以显示内存泄漏的嫌疑对象,以及具体的线程栈
记一次线上内存溢出问题排查_第1张图片
可以看到,由于大量的mysql的DB行造成了堆内存的溢出。线程栈信息里打出了代码行数
记一次线上内存溢出问题排查_第2张图片
经过梳理代码逻辑发现,该行查询的参数没有强校验,导致出现了无分页全表查询,直接导致堆内存溢出

你可能感兴趣的:(JVM)