JVM内存分块和垃圾收集算法

一、JVM内存分块

每一个进程会对应一个JVM实例，JVM在执行Java程序时，会将该进程获取到的内存划分成不同的数据块，这些区域有各自不同的用途和生命周期，根据经验总结出以下结论：

1. Java Heap（堆区）: 所有线程共享,存储类的所有成员变量(成员变量的对象引用和实例都在java heap)。java heap是GC的主要区域。

2. JVM Stack（虚拟机栈）： 每个线程都拥有一个，每个方法在执行时会创建一个栈帧，存储所有的局部变量，返回地址等等。（局部变量的对象的引用存在Stack中，对象实例存在Java Heap中）

3. Native Method Stack(本地方法栈)： 与Java虚拟机栈提供的服务一致，但是是为Native方法服务。

4. 方法区(静态存储区): 所有线程共享,存储已经被JVM加载的Class的信息、常量、static变量编译成的字节码。

5. PC（程序计数器）: 每个线程有独立的PC，PC的值指向程序即将执行的下一条指令的地址。

6. Native Heap/直接内存区： 直接内存区不是 JVM 管理的内存区域的一部分，而是其之外的。NIO就是使用Native函数库直接分配Native heap的内存，通过一个存储在Java heap中的DirectByteBuffer对象作为对该块Native heap内存的引用进行操作，提高流畅度，避免Java heap和Native heap中来回复制数据。Native heap的分配不受Java heap大小的限制，但是收到本机总内存的限制。（在Android3.0之前，Bitmap存储在Native heap中，Android3.0之后，存储在Java heap中）

image

特别注意： String和Integer、Long等特殊类型，具有不可变性，编译时就会分配内存，是存储在常量池中（常量池是方法区的一部分）。

二、垃圾收集

虽说JVM的GC是自动化的，但是为了排查各种内存溢出、内存泄露的问题，需要对GC技术做进一步了解。《深入理解JVM虚拟机》书中提到，垃圾回收应该思考三件事情：

哪些内存需要回收？
什么时候回收？
如何回收？

我们这里主要讨论的对象是Java Heap

1.对象存活判断

1，引用计数算法

给对象添加一个引用计数器，被引用时计数器值+1，引用失效计数器值-1，当计数器值为0时对象不可能再被使用；
主流Java虚拟机未选用该算法管理内存（未解决对象之间相互循环引用的问题即：当对象之间被循环引用的时候，就算是没有实际用途的对象，也不会被回收掉。）
实现简单，判断效率高（应用：FlashPlayer，Python等）

2，可达性分析算法

将"GC Roots"对象作为起始节点，向下搜索，搜索走过的路径为引用链；当一个对象到GC Roots没有引用链时，则该对象是不可用的；

可作为"GC Roots"的对象：

【1】，方法区中静态属性引用的对象
    
【2】，方法区中常量引用的对象

【3】，虚拟机栈引用的对象 (栈帧中本地变量表)
    
【4】，本地方法栈中JNI引用的对象 (Native方法)

2、引用类型

在JDK1.2之后，Java对引用类型进行扩充，分为强引用（Strong）、软引用（Soft）、弱引用（Weak）、虚引用（Phantom），下面逐一分析。

强引用（Strong Reference）：普遍存在的引用，使用Object object = new Object（）的方式new出来的对象就是强引用。
软引用（Soft Reference）：在内存即将不够用时，垃圾收集器会将软引用的对象回收掉。
弱引用（Weak Reference）：当触发了一次GC操作时，不管内存是否够用，都会回收掉弱引用的对象。
虚引用（Phantom Reference）：是否存在虚引用，不影响其生命周期，相当于没有被引用。使用虚引用的原因是为了在该对象被回收时收到通知。

3，垃圾回收算法

1，标记-清除算法

** 定义：** 先标记要回收的对象，然后统一回收；

适用： 存活对象较多的垃圾回收

** 缺点：**

【1】 ，效率低；标记和清除的过程效率不高；

【2】 ，空间问题；标记清除后产生大量不连续的内存碎片，给大对象分配内存时没有足够连续的内存空间，导致提前出发垃圾回收动作。

2，复制算法（节点拷贝法）

定义： 将可用内存划分成相等大小两块，每次只使用其中一块，当这一块用完后将还存活的对象复制到另一块，

然后将已使用过的内存一次清理。

适用： 存活对象较少的垃圾回收

优点： 每次对整个半区进行内存回收，不用考虑内存碎片问题，只要移动堆顶指针，按顺序分配内存即可；

实现简单，运行高效

缺点： 将内存缩小了一半

其他：

将新生代内存按照8:1:1分为Eden，From Survivor，To Survivor三个空间，每次使用Eden和From Survivor两个空间给对象分配内存，

当内存不足垃圾回收时，将存活对象复制到To Survivor空间，然后清理Eden和From Survivor空间；这样相当于内存指浪费了10%；

如果10%的To Survivor空间不够存放存活对象时需要老年代进行分配担保（将存活对象通过分配担保机制直接进入老年代）

3，标记-整理算法

定义： 先标记要回收的对象，将存活对象移至一端，最后清理端边界以外的内存

4，分代收集算法

定义： 根据对象存活周期将内存划分为新生代和老年代，然后根据每个年代的特点使用合适的回收算法；

如：新生代存活对象少可以采用复制算法；老年代存活对象多并且没有分配担保必须使用标记清理或标记整理回收算法

4、分代垃圾回收

1、新生代：

大部分刚被创建的对象被分配到这里，生命周期短，被创建后很快变成不可达。在新生代区域内发生的GC称为minor GC。

新生代被划分为三个区域：

1个Eden空间
2个Survivor空间

下面看新生代的GC过程：

（1）大多数刚刚被创建的对象会存放在Eden。
（2）在Eden执行第一次GC后，幸存的对象被移动到其中一个Survivor，之后的每次Eden满了都会执行GC，且都会将幸存者移动到该Survivor，直到该Survivor满（如果这时候Survivor不足以放下来自Eden的幸存者，会使用内存分配担保，提前进入老年代）。
（3）当一个Survivor满了之后，将Eden和该Survivor中还存活的对象移动到另一块Survivor，清空Eden和原来的Survivor（这时候，如果Survivor的空间不足以存放所有的幸存者，会依赖老年代的内存进行分配担保，对于内存分配担保会面会详细讲解）。
（4）在以上的步骤中重复几次依然存活的对象，就会被移动到老年代（默认15岁被移动到老年代）。
（5）老年代也满了之后，会触发major GC或full GC。

2、老年代：

从新生代的GC中存活下来的对象，会被拷贝到老年代，老年代空间比新生代大，发生在老年代上的GC要比新生代少。老年代中发生的GC被称为major GC。

3、思考一个问题：如果老年代的对象引用了一个新生代的对象，会怎么样？

老年代中存在一个Card Table，所有老年代的对象指向新生代对象的引用都会被记录在表中。新生代GC时，需要查询Card Table来决定是否可以被收集，而不用查询整个老年代。
Card table做为一个index，每一个bit，都代表了老年代中的一块连续的区域。
在Update一个bit的时候，还使用了一种叫做wirte barrier的技术，在程序修改一个ref的内容的时候，可以被编译器得知，显著的提升GC性能。
注意： 被老年代引用的新生代对象不会被GC，但是引用了老年代的新生代会被GC掉。