一、问题现象
今天A系统上线时,B系统报了可用率问题。经查看日志,发现是B系统调用的A系统接口线程池被打满,而且报警确实是刚刚上线完成所在的机器。
二、分析原因
通过分析A系统的ump发现该接口在这个时间点,性能出现了波动。见下图:
该接口操作比较简单,只操作了缓存,一个hgetall操作,所以,怀疑是资源或者gc导致的。
1、检查该服务器GC情况。发现在这个时间点,发生了fullgc
但是发生fgc的时候,该服务器jvm内存使用率很低。
发生fullgc,常见原因无外乎内存不够用,或者程序调用System.gc导致。后者之前也检查过,程序并没有调用system.gc。
2、检查该机器的jvm参数,发现XX:MaxPermSize=1024m,但是大家应该都知道jdk1.8已经使用metaspace替代了perm区[1],所以该参数是不会生效的。
-Xms4096m -Xmx4096m -XX:MaxPermSize=1024m
这台服务器使用的是默认的配置,Xmx[2]设置是4096m,但是metaspace没有配置。打印默认参数的值,通过java -XX:+PrintFlagsFinal -version | grep MetaspaceSize查看metaspacesize,可以看到默认值[3]为20m(21807104k)。
这里有一个常见的误区:
MetaspaceSize和jdk1.7的permsize含义是不同的,MetaspaceSize指的是“如果meta区使用达到了该值,会触发fullgc,扩容”[4],而permsize指的是初始化perm区的大小。
通过jstat查看meta区内存使用情况:
可以看到meta区,内存已经使用了86.19%(M=MU/MC),继续查看详细情况:
3、随着加载类的增多,我们的应用meta区远超过20m的大小,所以会触发fullgc,扩容metaspace。至此,问题已经很明确,因为jdk1.8的默认参数,导致需要扩容meta区,因此出现了fullgc。
三、解决方案
1、增加metaspace的配置,将metaspacesize和MaxMetaspaceSize配置设置成256m。避免meta区扩容。
-XX:MetaspaceSize=256m -XX:MaxMetaspaceSize=256m
2、修复之前及之后对比截图
修复之前的,在预发环境重启,发现发生了fullgc;修复之后,再次重启,没有gc发生。参见红框部分两个时间点。
注释
[1] java8去掉perm用Metaspace来替代
java8彻底将永久代(PermGen)移除出了HotSpot JVM,将其原有的数据迁移至Java Heap或Metaspace。
在HotSpot JVM中,永久代中用于存放类和方法的元数据以及常量池,比如Class和Method。每当一个类初次被加载的时候,它的元数据都会放到永久代中。
java 8中PermGen为什么被移出HotSpot JVM?两个主要原因(详见:JEP 122: Remove the Permanent Generation):
1、由于PermGen内存经常会溢出,引发恼人的 java.lang.OutOfMemoryError: PermGen
2、移除PermGen可以促进HotSpot JVM与JRockit VM的融合,因为JRockit没有永久代。
根据上面的各种原因,PermGen最终被移除,方法区移至Metaspace,字符串常量移至Java Heap。
java8开始把类的元数据放到本地堆内存(native heap)中,这一块区域就叫Metaspace,中文名叫元空间。
[2] -Xms -Xmx -Xss
Xms 是指设定程序启动时占用内存大小。
Xmx 是指设定程序运行期间最大可占用的内存大小。
Xss 是指设定每个线程的堆栈大小。
[3] metaspace size
metaspace使用的是本地内存,而不是堆内存,是没有上限的。在java8中,XX:MaxMetaspaceSize确实是没有上限的,最大容量与机器的内存有关;但是XX:MetaspaceSize是有一个默认值的,这个值大小根据不同的平台在12M到20M浮动。
[4] metaspace fullgc
metaspace在空间不足时,会进行扩容,并逐渐达到设置的MetaspaceSize。Metaspace扩容到 -XX:MetaspaceSize 参数指定的量,就会发生FGC。如果配置了 -XX:MetaspaceSize,那么触发 FGC 的阈值就是配置的值。