上一篇文章Java内存模型提到虚拟机所管理的内存主要包括以下几个区域:程序计数器、虚拟机栈、本地方法栈、方法区和堆。其中前三个区域随线程而生死,这些区域的内存分配和回收都具有确定性。而堆和方法区则具有不确定性,只有程序处于运行期间才能知道会创建哪些对象,本文主要讨论这两个部分内存的回收。
Java的内存管理就是对象的分配和释放问题。在Java中,通过关键字new为每个对象申请内存空间(基本类型除外),所有的对象都是在堆中分配空间,对象的释放是由GC(Gabage Collection)决定和执行的。这种机制简化了程序员工作的同时,也加重的虚拟机的负荷,是Java程序运行速度较慢的原因之一。
我们可以将对象考虑为有向图的顶点,将引用关系考虑为图的有向边,有向边从引用者指向被引对象,另外每一个线程对象可以作为一个图的起始顶点,例如大多数程序从main进程开始执行,那么该图就是以main进程顶点开始的一棵根树。在这个有向图中,根节点可达的对象都是有效对象,GC将不回收这些对象,如果某个对象与这个根节点不可达,那么我们认为这个对象不再被引用,可以被GC回收。eg:
class Demo { public static void main(String[] args) { Object o1=new Object(); Object o2=new Object(); o2=o1; } }
在Java中,内存泄漏就是存在一些被分配的对象,这些对象有下面两个特点,首先,这些对象是可达的,即在有向图中,存在通路可以与其相连;其次,这些对象是无用的,即程序以后不会再使用这些对象。如果对象满足这两个条件,这些对象就可以判定为Java中的内存泄漏,这些对象不会被GC所回收,然而它却占用内存。下面是一个内存泄露的示例:
Vector v=new Vector(10); for (int i=1;i<100; i++) { Object o=new Object(); v.add(o); o=null; }
我们循环申请Object对象,并将所申请的对象放入一个Vector中,如果我们仅仅释放引用本身,那么Vector仍然引用该对象,所以这个对象对GC来说是不可回收的。因此,如果对象加入到Vector后,还必须从Vector中删除,最简单的方法就是将Vector对象设置为null。
常用的内存泄露工具包括工具包括Optimizeit Profiler,JProbe Profiler,JinSight , Rational 公司的Purify等。
引用计数法:给对象中添加一个引用计数器,每当一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1;任何时刻计数器为0的对象就是不可能再被使用的。
主流的Java虚拟机并没有选用上述方法来管理内存,主要原因是它很难解决对象之间相互循环引用的问题。
一个简单的循环引用问题描述如下:有对象 A 和对象 B,对象 A 中含有对象 B 的引用,对象 B 中含有对象 A 的引用。此时,对象 A 和对象 B 的引用计数器都不为 0。但是在系统中却不存在任何第 3 个对象引用了 A 或 B。也就是说,A 和 B 是应该被回收的垃圾对象,但由于垃圾对象间相互引用,从而使垃圾回收器无法识别,引起内存泄漏。
class ReferenceCountingGc { public Object instance=null; public static void testGc() { ReferenceCountingGc objA=new ReferenceCountingGc(); ReferenceCountingGc objB=new ReferenceCountingGc(); objA.instance=objB; objB.instance=objA; objA=null; objB=null; } }
可达性分析法:主流的商用语言都用可达性分析算法来判定对象是否存活。基本的思路是通过一系列的称为“GC Roots”的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为“引用链”,当一个对象到GC Roots没有任何引用链相连时(即GC Roots到这个对象不可达),则证明此对象是不可用的。
在Java中,可以作为GC Roots的对象包括:
要真正宣告一个对象死亡,至少要经过两次标记过程:如果对象在进行可达性分析后发现没有与GC Roots相连接的引用链,那它将会被第一次标记并并且进行第一次筛选,筛选的方法是此对象是否有必要执行finalize()方法(当对象没有覆盖finalize()方法,或者finalize()方法已经被虚拟机调用过,虚拟机将视为没有必要执行),如果这个对象被判定为有必要执行finalize()方法,那么这个对象就会被放置在一个叫做F-dequeu的队列中,并稍后由一个低优先级的线程去执行它。finalize()方法是对象逃脱死亡命运的最后一次机会,稍后GC将对F-dequeu中的对象进行第二次标记。
标记-清除算法:算法分为标记和清除两个阶段,首先标记所有需要回收的对象,在标记完成以后统一回收所有被标记的对象。
这种算法有两个问题,一个效率过低,另一个是空间问题,标记清除后产生大量不连续的内存碎片,导致以后程序运行过程中无法找到足够的连续内存。
复制算法:这中算法将可用内存按容量划分为大小相等的两块,每一次只使用其中的一块,当这一块的内存使用完了,就将还存活着的对象复制到另外一块上去,然后再将已使用过的内存空间一次清理掉。
Java 的新生代串行垃圾回收器中使用了复制算法的思想。新生代分为 Eden 空间、From 空间、To 空间 3 个部分。其中 From 空间和 To 空间可以视为用于复制的两块大小相同、地位相等,且可进行角色互换的空间块。From 和 To 空间也称为 survivor 空间,即幸存者空间,用于存放未被回收的对象。
在垃圾回收时,Eden 空间中的存活对象会被复制到未使用的 survivor 空间中 (假设是 to),正在使用的 survivor 空间 (假设是 from) 中的年轻对象也会被复制到 to 空间中 (大对象,或者老年对象会直接进入老年带,如果 to 空间已满,则对象也会直接进入老年代)。此时,Eden 空间和 From 空间中的剩余对象就是垃圾对象,可以直接清空,To 空间则存放此次回收后的存活对象。这种改进的复制算法既保证了空间的连续性,又避免了大量的内存空间浪费。
标记-整理算法:标记过程与标记-清除算法一样,后续则是将所有存活的对象都向一端移动,然后直接清理掉端边界以外的内存。
分代收集算法:根据对象存活周期的不同将内存划分为几块,一般是将对划为新生代和老年代,这样可以根据各个年代的特点采用使用的收集算法,在新生代中每次垃圾都发现大批对象死去,就采用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。
参考文献:
1、深入理解Java虚拟机,周志明,机械工业出版社
2、https://www.ibm.com/developerworks/cn/java/j-lo-JVMGarbageCollection/