垃圾收集概述
垃圾收集(Garbage Collection,下文简称GC)
可以理解为无用内存的回收,1960年诞生的Lisp语言的作者John McCarthy就思考过垃圾收集需要完成的三件事情:
- 哪些内存需要回收?
- 什么时候回收?
- 如何回收?
为什么我们还要去了解垃圾收集和内存分配?
答案很简单:当需要排查各种内存溢出、内存泄漏问题时,当垃圾收集成为系统达到更高并发量的瓶颈时,我们就必须对这些“自动化”的技术实施必要的监控和调节。
哪些内存需要回收?
Java内存运行时区域中的程序计数器、虚拟机栈、本地方法栈3个区域随线程而生,随线程而灭
。每一个栈帧中分配多少内存基本上是在类结构确定下来时就已知的,因此这几个区域的内存分配和回收都具备确定性,不需要过多考虑如何回收的问题,当方法结束或者线程结束时,内存自然就跟随着回收了。
Java堆和方法区这两个区域的内存空间是线程共享的,在程序运行期间一直存在
,并且有限制最大占用空间的参数设置,所以需要对这两部分的内存空间进行回收利用,垃圾收集器所关注的正是这部分内存该如何管理
。
在堆中存着几乎所有的对象实例,垃圾回收器在对堆进行回收前,就需要先判断堆中的对象哪些还“存活”着,哪些已经“死去”
(“死去”即不可能再被任何途径使用的对象)
引用计数算法
判断内存中对象是否是垃圾的算法有很多,“引用计数法”
是其中一种,其判断对象是否存活的算法如下:
- 在对象中添加一个引用计数器
- 每当有一个地方引用它时,计数器值就加一
- 当引用失效时,计数器值就减一
- 任何时刻计数器为零的对象就是不可能再被使用的。
客观地说,引用计数算法(Reference Counting)
虽然占用了一些额外的内存空间来进行计数,但它的原理简单,判定效率也很高,在大多数情况下它都是一个不错的算法。也有一些比较著名的应用案例,使用了引用计数算法进行内存管理,例如:
- 微软COM(Component Object Model)技术
- 使用ActionScript 3的FlashPlayer
- Python语言
- 在游戏脚本领域得到许多应用的Squirrel中。
但在Java领域,至少主流的Java虚拟机里面都没有选用引用计数算法来管理内存
,主要原因是,这个看似简单的算法有很多例外情况要考虑,必须要配合大量额外处理才能保证正确地工作,譬如单纯的引用计数就很难解决对象之间相互循环引用的问题
。
可达性分析算法
当前主流的商用程序语言(Java、C#,上溯至前面提到的古老的Lisp)的内存管理子系统,都是通过可达性分析(Reachability Analysis)算法
来判定对象是否存活的。这个算法的基本思路就是:
- 通过一系列称为“GC Roots”的根对象作为起始节点集
- 从这些节点开始,根据引用关系向下搜索,搜索过程所走过的路径称为“引用链”(Reference Chain)
- 如果某个对象到GC Roots间没有任何引用链相连,或者用图论的话来说就是从GC Roots到这个对象不可达时,则证明此对象是不可能再被使用的。
如图下图,对象object 5、object 6、object 7虽然互有关联,但是它们到GC Roots是不可达的,因此它们将会被判定为可回收的对象。
在Java技术体系里面,固定可作为GC Roots的对象
包括以下几种:
- 在虚拟机栈(栈帧中的本地变量表)中引用的对象,譬如各个线程被调用的方法堆栈中使用到的参数、局部变量、临时变量等。
- 在方法区中类静态属性引用的对象,譬如Java类的引用类型静态变量。
- 在方法区中常量引用的对象,譬如字符串常量池(String Table)里的引用。
- 在本地方法栈中JNI(即通常所说的Native方法)引用的对象。
- Java虚拟机内部的引用,如基本数据类型对应的Class对象,一些常驻的异常对象(比如NullPointExcepiton、OutOfMemoryError)等,还有系统类加载器。
- 所有被同步锁(synchronized关键字)持有的对象。
- 反映Java虚拟机内部情况的JMXBean、JVMTI中注册的回调、本地代码缓存等。
除了固定的GC Roots集合以外,还可以有其他对象“临时性”地加入,共同构成完整GC Roots集合
(根据用户所选用的垃圾收集器以及当前回收的内存区域不同)。比如只针对Java堆中某一块区域发起垃圾收集时(如最典型的只针对新生代的垃圾收集),这个区域里的对象完全有可能被位于堆中其他区域的对象所引用,这时候就需要将这些关联区域的对象也一并加入GC Roots集合中去,才能保证可达性分析的正确性。
Java中的引用
无论是通过引用计数算法判断对象的引用数量,还是通过可达性分析算法判断对象是否引用链可达,判定对象是否存活都和“引用”离不开关系。
在JDK 1.2版之前,Java里面的引用是很传统的定义
:如果reference类型的数据中存储的数值代表的是另外一块内存的起始地址,就称该reference数据是代表某块内存、某个对象的引用。一个对象在这种定义下只有“被引用”或者“未被引用”两种状态
,对于描述一些“食之无味,弃之可惜”的对象就显得无能为力了。譬如我们希望能描述一类对象:当内存空间还足够时,能保留在内存之中,如果内存空间在进行垃圾收集后仍然非常紧张,那就可以抛弃这些对象——很多系统的缓存功能都符合这样的应用场景。
在JDK 1.2版之后,Java对引用的概念进行了扩充,将引用分为强引用(Strongly Re-ference)、软引用(Soft Reference)、弱引用(Weak Reference)和虚引用(Phantom Reference)4种,这4种引用强度依次逐渐减弱
。
强引用
强引用是最传统的“引用”的定义,是指在程序代码之中普遍存在的引用赋值,即类似“Object obj=new Object()”这种引用关系。无论任何情况下,只要强引用关系还存在,垃圾收集器就永远不会回收掉被引用的对象。
软引用
软引用是用来描述一些还有用,但非必须的对象。只被软引用关联着的对象,在系统将要发生内存溢出异常前,会把这些对象列进回收范围之中进行第二次回收
,如果这次回收还没有足够的内存,才会抛出内存溢出异常。在JDK 1.2版之后提供了SoftReference类
来实现软引用。
弱引用
弱引用也是用来描述那些非必须对象,但是它的强度比软引用更弱一些,被弱引用关联的对象只能生存到下一次垃圾收集发生为止
。当垃圾收集器开始工作,无论当前内存是否足够,都会回收掉只被弱引用关联的对象。在JDK 1.2版之后提供了WeakReference类
来实现弱引用。
虚引用
虚引用也称为“幽灵引用”或者“幻影引用”,它是最弱的一种引用关系。一个对象是否有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用关联的唯一目的只是为了能在这个对象被收集器回收时收到一个系统通知
。在JDK 1.2版之后提供了PhantomReference类
来实现虚引用。
个人总结
垃圾收集器所关注的内存区域是哪部分?
- 程序计数器、虚拟机栈、本地方法栈3个区域随线程而生,随线程而灭,当方法结束或者线程结束时,内存自然就跟随着回收了,因此不需要过多考虑如何回收的问题。
- Java堆和方法区这两个区域则有着很显著的不确定性,这部分内存的分配和回收是动态的,垃圾收集器所关注的正是这部分内存该如何管理。
常见的判断对象是否存活的算法有哪些?判定过程是怎样?
引用计数算法
- 在对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加一;当引用失效时,计数器值就减一;
- 任何时刻计数器为零的对象就是不可能再被使用的。
可达性分析算法
- 通过一系列称为“GC Roots”的根对象作为起始节点集
- 从这些节点开始,根据引用关系向下搜索,搜索过程所走过的路径称为“引用链”(Reference Chain)
- 如果某个对象到GC Roots间没有任何引用链相连,即GC Roots到这个对象不可达时,则证明此对象是不可能再被使用的。
Java为什么没有选择引用计数法来判断对象是否“存活”?
- 引用计数算法虽然占用了一些额外的内存空间来进行计数,但它的原理简单,判定效率也很高,在大多数情况下它都是一个不错的算法。
- 引用计数法看似简单,却要考虑很多例外情况,譬如对象之间的循环引用问题。
JDK1.2后Java中的引用分为哪几种?
- 强引用。是指在程序代码之中普遍存在的引用赋值,即类似“Object obj=new Object()”这种引用关系。无论任何情况下,只要强引用关系还存在,垃圾收集器就永远不会回收掉被引用的对象。
- 软引用。用来描述一些还有用,但非必须的对象。在系统将要发生内存溢出异常前,会把这些对象列进回收范围之中进行第二次回收,如果这次回收还没有足够的内存,才会抛出内存溢出异常。提供了SoftReference类来实现软引用。
- 弱引用。用来描述那些非必须对象,但是它的强度比软引用更弱一些。被弱引用关联的对象只能生存到下一次垃圾收集发生为止。提供了WeakReference类来实现弱引用。
- 虚引用。也称为“幽灵引用”或者“幻影引用”,它是最弱的一种引用关系。无法通过虚引用来取得一个对象实例,唯一目的只是为了能在这个对象被收集器回收时收到一个系统通知。提供了PhantomReference类来实现虚引用。
参考资料
- 《深入理解Java虚拟机第三版》