JVM-GC过程及常用算法

一、JVM的堆模型

JVM的堆被同一个JVM实例中所有的Java线程共享,它通常由某种自动管理机制所管理,这种机制通常叫做"垃圾回收"。
在Java 1.8 中,堆的内存模型大致如下:

JVM堆内存模型.png

堆大小 = 新生代 + 老年代。其中堆的大小可以通过参数 -Xms,-Xmx来指定。
默认情况:新生代(Young) 与老年代(Old)的比例的值是 1:2 (该值可以通过参数-XX: NewRatio来指定),即: 新生代(Young) = 1/3的堆空间大小,老年代(Old) = 2/3的堆空间大小。
其中,新生代(Young)被细分为 Eden 和 两个 Survivor区域,这两个 Survivor区域分别被命名为 from 和 to(也有称之为S1区和S2区),以示区分。
默认的,Eden:from:to = 8:1:1 (可以通过参数 -XX: SurvivorRatio来设定),即: Eden = 8/10 的新生代空间大小,from = to = 1/10 的新生代空间大小。

二、判定垃圾机制

常见的JVM垃圾判定算法包括:引用计数算法、可达性分析算法

  1. 引用计数算法(Reference Counting)
    引用计数算法是通过判断对象的引用数量来决定对象是否可以被回收。
    给对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1;任何时刻计数器为0的对象就是不可能再被使用的。
  • 优点:简单,高效,现在的objective-c用的就是这种算法。

  • 缺点:很难处理循环引用,相互引用的两个对象则无法释放。因此目前主流的Java虚拟机都摒弃掉了这种算法。

2.可达性分析算法(根搜索算法)
可达性分析算法是通过判断对象的引用链是否可达来决定对象是否可以被回收。
从GC Roots(每种具体实现对GC Roots有不同的定义)作为起点,向下搜索它们引用的对象,可以生成一棵引用树,树的节点视为可达对象,反之视为不可达。


image.png

在Java语言中,可以作为GC Roots的对象包括下面几种:

  • 虚拟机栈(栈帧中的本地变量表)中的引用对象。
  • 方法区中的类静态属性引用的对象。
  • 方法区中的常量引用的对象。
  • 本地方法栈中JNI(Native方法)的引用对象

三、工作机制

JVM每次只会使用 Eden和其中的一块 Survivor区域来为对象服务,所以无论什么时候,总有一块 Survivor区域是空闲着的,新生代实际可用的内存空间为 90% 的新生代空间。

  • 当eden区满了的时候会触发一次youngGC过程,把还活着的对象拷贝到from区
  • 当Eden区再次触发GC的时候会扫描Eden区和from区域,对这两个区域进行垃圾回收,经过这次回收后还存活着的对象,则直接复制到to区域(如果有对象的年龄已经达到了老年的标准,则赋值到老年代区),同时把这些对象的年龄 + 1。
  • 当from和to区其中一块区域满了,from和to会进行内存空间的交换,来保证其中一块是空闲的(谁空谁是To),部分对象会在From和To区域中复制来复制去,如此交换15次(由JVM参数MaxTenuringThreshold决定,这个参数默认是15),最终如果还是存活,就存入老年代

该机制的优缺点如下:
优点:
在存活对象不多的情况下,性能高,能解决内存碎片和java垃圾回收算法之-标记清除中导致的引用更新问题。
缺点:
会造成一部分的内存浪费。不过可以根据实际情况,将内存块大小比例适当调整;
如果存活对象的数量比较大,coping的性能会变得很差

四、GC算法

1.标记-清除算法

在GC算法中,最简单的就是 "标记-清除"(Mark-Sweep)算法。它的原理比较简单,首先根据可达性分析算法对不可达对象进行标记,在标记完成后统一回收所有被标记的对象。标记-清除算法的执行过程如下图:


Mark-Sweep.png

标记-清除算法有两个缺点:

效率问题,标记和清除两个过程的效率都不高
空间问题,标记清除之后产生大量不连续的内存碎片,如果这时候有大对象需要连续的内存空间进行分配时,很可能会因为没有足够的连续内存空间而又触发一次 GC

注:基于Mark-Sweep的GC 多用于老年代

2.复制算法

复制算法的思路是它将可用内存按容量划分为大小相等的两块,每次只用其中的一块。当这块内存用完了,就将还存活的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。
这样每次都是对半区进行内存回收,内存分配时也就不用考虑内存碎片等复杂情况,只要移动堆顶指针,按顺序分配内存即可。但是这种算法是用空间换时间,代价是将内存缩小为原来的一半,代价很高。而新生代的对象一般是存活时间较短的对象,GC频率较高,占内存较少,因此新生代一般都采用基于复制的GC。复制算法过程如下:


复制法.png

HotSpot 虚拟机将新生代内存分为 一块较大的 Eden空间和两块较小的 Survivor空间,Eden和Survivor的大小比例是8:1。每次新生代中可用内存空间为整个新生代容量的 90%。我们没有办法保证每次回收都只有不多于 10%的对象存活,当 Survvivor 空间不够用时,需要依赖老年代进行分配担保。

3.标记 - 整理算法

复制收集算法在对象存活率较高时就要进行较多的复制操作,效率会变低,它比较适合收集新生代对象,至于老年代这种一般不选用复制算法。根据老年代的特点,可以使用 "标记-整理"算法或者"标记-清除"算法。
标记 - 整理算法可以解决内存碎片的问题,而且思路也比较简单,它的思想就是,让所有存活的对象都向一端移动,然后直接清理掉边界以外的内存,如下图所示:


标记整理.png

4.分代收集

当前商业虚拟机的垃圾收集都采用"分代收集",将堆分为新生代和老年代,根据各个年代的特点采用最适当的收集算法:
新生代:复制收集算法
老年代:

  • 标记 - 清除算法
  • 标记 - 整理算法

你可能感兴趣的:(JVM-GC过程及常用算法)