目录
目标
准备工作
配置
收集数据
诊断工具
诊断memory leak
判断memory leak
定位引起leak的位置
OutOfMemoryError
总结排查JVM问题时可以使用的工具、策略、措施等。
-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=存放dump的目录
JFR Java flight recording java运行记录。当应用出问题时,JFR可以提供最近一段时间的dump data。JFR对很多问题都能提供帮助,如memory leaks to network errors, high CPU usage, thread blocks。
命令行
允许jmc操作
-XX:+UnlockCommercialFeatures -XX:+FlightRecorder
Start a profiling recording
-XX:StartFlightRecording=delay=20s,duration=60s,name=myrecording,filename=C:\TEMP\myrecording.jfr,settings=profile
Start a continuous recording
-XX:FlightRecorderOptions=defaultrecording=true,disk=true,repository=/tmp,maxage=6h,settings=default
jcmd指令
-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCApplicationStoppedTime -XX:+PrintGCApplicationConcurrentTime
-XX:+PrintHeapAtGC -Xloggc:存储gclog的文件路径
-verbosegc 输出内容少,无法看到各个代的回收情况
应用启动时开启JMX
-Dcom.sun.management.jmxremote.port=1099 -Dcom.sun.management.jmxremote.authenticate=false
应用启动之后,独立开启JMX
jcmd pid ManagementAgent.start options
log
heap dump
JFR
thread stack
用于应用crash之后诊断问题
用于死机或死锁应用的诊断
监控正在运行的应用
Oracle Java Mission Control 是一个用于对 Java 应用程序进行管理、监视、概要分析和故障排除的可视化工具套件。
首次安装时,Java Mission Control 包括 JMX 控制台和 Java 飞行记录器。从 Mission Control 中可以轻松安装更多插件。
在运行时监视和管理您的 Java 应用程序和 JVM。
运行时JVM行为的时间序列数据并使用 Java 飞行记录器工具脱机分析记录。
记录类型
持续性记录
对记录记性持续性存储,且可设置数据窗口,如保留最近6小时的记录。很低的性能影响。
信息采集记录
一段时间内采集记录,约2%的性能影响。
场景
必须通过jmx端口连接到JVM
推荐使用,替换jmap jstack jinfo 。
必须在jvm运行的机器中执行,用于向jvm发送诊断指令请求,可用于控制JFR、定位问题、诊断jvm和应用等。
jcmd 列举本机jvm进程ID和名称
jcmd pid help 列举该jvm进程可使用的指令
jcmd pid help command 列举指令参数
Thread.print | 列举线程栈,同jstack。 参数-l 显示获取的lock接口实现的锁 |
GC.heap_info | heap信息,列举各代垃圾回收器类型、容量、占用量,类似jmap -heap,但没有jmap -heap全面 G1显示结果 清楚列举GC类型,heap容量信息,regin信息,Metaspace容量信息,以及归属于Metaspace的compressed class space(CCS)的容量信息。 CMS列举各代垃圾回收器类型、容量、占用量。 |
GC.heap_dump | GC.heap_dump [options] 参数-all=true/false dump所有信息 |
GC.class_stats | java class 元数据的统计,需要配置-XX:+UnlockDiagnosticVMOptions。 |
GC.finalizer_info | 类似jmap -finalizerinfo |
GC.class_histogram | class实例heap占用情况统计,类似jmap -histo |
VM.classloader_stats | classloader统计 类似jmap -clstats |
VM.uptime | jvm进行持续运行时间 |
VM.flags | jvm配置信息 |
VM.command_line | 启动jvm时使用的命令行信息 |
VM.system_properties | 系统变量 |
JFR.start | 开启JFR采集,并指定存储文件,之后可使用JMC打开该文件 |
JFR.check | 列举当前jvm正在执行的JFR采集 |
JFR.stop | 停止某个JFR采集 |
JFR.dump | 停止某个JFR采集,并且将采集记过dump到某个文件,之后可使用JMC打开该文件 |
command-line debugger,使用java debug interface(JDI)去启动或连接到目标JVM。
JDI作为JPDA(Java Platform Debugger Architecture)的一个组件,为需要访问JVM运行状态的debugger或类似系统提供可用信息。
通过连接器与目标jvm进行交互,远程JVM需要使用SA Debug Server。
配置信息 系统变量 启动项等,建议使用jcmd
JVM-JVM度量与排错-基本指令
JVM-JVM度量与排错-基本指令
JVM-JVM度量与排错-基本指令
Eclipse Memory Analyzer Tool (MAT)
NetBeans Profiler
使用JFR可以推断和阻止memory leak。针对一段时间的JFR采集数据,对比old代gc后heap的占用情况,若heap使用量是持续增加的,说明可能导致memory leak。
JMC观察
gc后old占用量虽然减少,但是对比之前的结果,占用量是持续增加的。
通过查看class实例占用情况,基本发现占用空间最多的都是一些基本类型,如char,所以通过占用量无法直接定位具体类。
内存-分配,关注压力和堆栈
可以查看占用量大的对象的gc root,然后查看引用量大的gc root
解决OOM前,需要OOM异常信息末尾的提示,明确是heap不足还是本地heap不足。
配置的heap过小,无法满足app的足迹要求。
对于已经运行近较长时间的应用,可能是memory leak问题。
应用创建很多优先级很高的线程,导致finalizer demaon线程处理the finalization queue的速度不及增长速度。对于提供finalize方法的class,其对象的空间不会在gc期间被清理。而是放到the finalization queue中,由finalizer demaon线程进行处理。
原因
java进程使用超过98%的时间进行GC,且GC后heap清除率低于2%,且至少连续执行5次GC。表示lived data占用空间过多,导致仅有极少空间用于分配。
措施
增大heap
关闭上线限制 -XX:-UseGCOverheadLimit
原因
创建数组所需空间超过heap可用空间
措施
是否有必要创建大数组,增大heap。
java class 元数据有很多种类,-klass类型的原数据占用的native memory称为CompressedClassSpace,其类型的原数据占用的native memory称为metaspace。
措施
-XX:MaxMetaspaceSize=xx
On 64-bit platforms, a pointer to class metadata can be represented by 32-bit offset (with UseCompressedOops).
-XX: CompressedClassSpaceSize=xx
an allocation from the native heap failed and the native heap might be close to exhaustion
由JNI或native方法导致