《深入理解Java虚拟机》读书笔记1

一、Java技术体系

       Sun官方定义的Java技术体系包括以下几个组成部分:

       * Java程序设计语言

       * 各种硬件平台上的Java虚拟机

       * Class文件格式

       * Java API类库

       * 来自商业机构和开源社区的第三方Java类库

注:Java程序设计语言、Java虚拟机、JavaAPI类库统称为JDK(Java Development Kit), JDK是用于支持Java程序开发的最小环境。

       Java API类库中的Java SE API子集 和 Java虚拟机这两部分统称为JRE(Java Runtime Environment), JRE是支持Java程序运行的标准环境。

 

按照Java技术关注的重点业务领域来划分,Java技术体系可以分为四个平台:

        * Java Card : 支持一些Java小程序(Applets)运行在小内存设备(如智能卡)上的平台

        * Java ME(Micro Edition):支持Java程序运行在移动终端(手机、PDA)上的平台,对Java API有所精简,并加入了针对移动终端的支持,这个版本以前称为J2ME.

        * Java SE(Standard Edition):支持面向桌面级应用(如Windows下的应用程序)的Java平台,提供了完整的Java核心API,这个版本以前称为J2SE.

        * Java EE(Enterprise Edition):支持使用多层架构的企业应用(如ERP、CRM应用)的Java平台,除了提供Java SE API外,还对其做了大量的扩充并提供了相关的部署支持,这个版本以前称为J2EE。

注:Java EE中的扩展一般以javax.*作为包名,而以java.*为包名的包都是Java SE API的核心包,但由于历史原因,一部分曾经是扩展包的API后来进入了核心包,因此核心包中也包含了不少javax.*的包名。

二、运行时数据区域
      Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。 方法区(Method Area)、虚拟机栈(VM Stack)、本地方法栈(Native Method Stack)、堆(Heap)、程序计数器(Program Couter Register).

1、程序计数器
       程序计数器是一块较小的内存空间,它的作用可以看作是当前线程所执行的字节码的行号指示器。字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令。
       Java虚拟机的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的。为了线程切换后能恢复到正确的执行位置,每条线程都需要有一个独立的程序计数器,各个线程之间的计数器互不影响,独立存储,我们称这类内存区域为“线程私有”的内存。
       注:如果线程正在执行的是一个Java方法,这个计数器记录的是正在执行的虚拟机字节码指令的地址:如果正在执行的是Native方法,这个计数器值则为空(Undefined).
       注:此内存区域是唯一一个在Java虚拟机规范中没有规定任何OutOfMemoryError情况的区域。

2、Java虚拟器栈(Java Virtual Machine Stacks)
       Java虚拟机栈也是线程私有的。生命周期与线程相同,Java虚拟机栈描述的是Java方法执行的内存模型:每个方法被执行的时候都会同时创建一个栈帧(Stack Frame),用于存储局部变量表、操作栈、动态链接、方法出口等信息。
       每个方法被调用直至执行完成的过程,就对应着一个栈帧在虚拟机中从入栈到出栈的过程。
       局部变量表存放了编译器可知的各种基本数据类型、对象引用(可能是一个指向对象起始地址的引用指针)和returnAddress类型(指向一条字节码指令的地址)。
       局部变量表所需的内存空间在编译期间完成分配,当进入一个方法时,这个方法需要在帧中分配多大的局部变量空间是完全确定的,在方法运行期间不会改变局部变量表的大小。

      Java虚拟器规范中,对这个区域规定了两种异常状况:如果线程请求的栈深度大于虚拟机所允许的深度,将抛出StackOverflowError异常;如果虚拟机栈可以自动扩展,当扩展时无法申请到足够的内存时会抛出OutOfMemoryError异常。

3、本地方法栈(Native Method Stacks)
      本地方法栈与虚拟机栈所发挥的作用非常类似。区别在于虚拟机栈为虚拟机执行Java方法(也就是字节码)服务,而本地方法栈是为虚拟机使用到的Native方法服务的
      本地方法栈也会抛出StackOverflowError和OutOfMemoryError异常。

4、Java堆
      Java堆(Java Heap)是Java虚拟机所管理的内存中最大的一块。是被所有线程共享的一块内存区域,在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例
      Java虚拟机规范规定:所有的对象实例以及数组都要在堆上分配。
      Java堆是垃圾收集器管理的主要区域,因此很多时候也被称为“GC堆”(Garbage Collected Heap).
      Java虚拟机规范规定,Java堆可以处于物理上不连续的内存空间中,只要逻辑上连续即可。
      当前驻留的虚拟机都是按照可扩展来实现的(通过-Xmx 和 -Xms控制)。如果在堆中没有内存完成实例分配,并且堆也无法再扩展时,将会抛出OutOfMemoryError异常。

5、方法区
      方法区(Method Area)与Java堆一样,是各个线程共享的内存区域它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据
     Java虚拟机规范规定,当方法区无法满足内存分配需求时,将抛出OutOfMemoryError异常。

6、运行时常量池
      运行时常量池(Runtime Constant Pool)是方法区的一部分。Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池(Constant Pool Table),用于存放编译期生成的各种字面量和符号引用。这部分内容将在类加载后存放到方法区的运行时常量池中。
      运行时常量池相对于Class文件常量池的另外一个重要特征是具备动态性,不仅Class文件中的常量池的内容可以进入方法去运行时常量池,运行期间也可能将新的常量放入池中。

7、直接内存
      直接内存(Direct Memory)并不是虚拟机运行时数据区的一部分,也不是Java虚拟机规范汇总定义的内存区域,例如, JDK1.4引入的NIO类,引入了基于通道(Channel)与缓冲区(Buffer)的I/O方式,它可以使用Native函数库直接分配堆外内存,然后通过一个存储在Java堆里面的DirectByteBuffer对象作为这块内存的引用进行操作。
      注意:直接内存虽然不包含在堆内存中,但是它也是一块需要的内存区域,因此,在计算各个内存区域总和的时候要计算在内。

三、对象访问

       对于Object obj = new Object();

       "Object obj"这部分的语义将会反映到Java栈的本地变量表中,作为一个reference类型数据出现。

       “new Object()”这部分语义将会反映到Java堆中,形成一块存储了Object类型所有实例数据值的结构化内存。

        由于reference类型在Java虚拟机规范里面只规定了一个指向对象的引用,因此不同的虚拟机实现会有不同的实现对象访问的方式,主流的访问方式有两种:使用句柄 和直接指针。

        ** 使用句柄

        使用该方式,Java堆中将会划分出一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中存对象实例数据和类型数据的具体地址信息。如下图:

《深入理解Java虚拟机》读书笔记1_第1张图片

       ** 使用直接指针

       reference中直接存储的就是对象地址。如下图:

《深入理解Java虚拟机》读书笔记1_第2张图片

     各自的优点

     ** 句柄访问方式最大的好处是reference中存储的是稳定的句柄地址,在对象被移动时只会改变句柄中的实例数据指针,而reference本身不需要被修改。

     ** 直接指针访问方式的最大好处就是速度更快,它节省了一次指针定位的时间开销。Sun HotSpot虚拟机是使用第二种方式的。

 

四、实战:OutOfMemoryError异常

1、Java堆的溢出

       通过指定VM Args参数,可以设置虚拟机的启动参数。-Xms参数指定堆的最小值, -Xmx参数指定堆的最大值,通过参数-XX:+HeapDumpOnOutOfMemoryError可以让虚拟机在出现内存溢出异常时Dump出当前的内存堆转储文件以便后续分析。

       例如,在VM Arg参数中指定:-verbose:gc -Xms20M -Xmx20M -Xmn10M -XX:SurvivorRatio=8 -XX:+HeapDumpOnOutOfMemoryError

可以将堆的大小设置为20M(将堆的最小值-Xms参数与最大值-Xmx参数设置为一样即可避免堆自动扩展),并导出Dump文件。

下面程序将导致一个堆溢出异常:

/** 
 * VM Args: -Xms20m -Xmx20m -XX:+HeapDumpOnOutOfMemoryError
 * @author zzm
 */

public class HeapOOM {

	static class OOMObject {
		
	}
	public static void main(String[] args) {
		List list = new ArrayList();
		
		while (true) {
			list.add(new OOMObject());
		}
	}
}

     使用Eclipse Memory Analyzer对dump文件进行分析,可以分清是内存泄漏(Memory Leak)还是内存溢出(Memory Overflow)。关于Memory Analyzer的使用可以参考:http://www.cnblogs.com/zhtzyh2012/archive/2016/02/19/5199878.html

 

2、虚拟机栈和本地方法栈溢出

       VM Arg中 -Xoss参数可以设置本地方法栈大小(由于HotSpot虚拟机中并不区分虚拟机栈和本地方法栈,因此-Xoss参数是无效的),-Xss参数指定虚拟机栈的大小

       关于虚拟机栈和本地方法栈,有两种可能的异常:StackOverflowError和OutOfMemoryError异常。

       实验表明:在单个线程下,无论是由于栈帧太大,还是虚拟机栈容量太小,当内存无法分配时,虚拟机都会抛出StackOverflowError异常,不会抛出OutOfMemoryError异常。

       注意:如果是建立过多线程导致的内存溢出,在不能减少线程数或者更换64位虚拟机的情况下,就只能通过减少最大堆和减少栈容量来换取更多的线程。

 

3、运行时常量池溢出

       常量池分配在方法区。通过-XX:PermSize和-XX:MaxPermSize可以限制方法区的大小,从而间接限制其中常量池的容量。

/**
 * VM Args: -XX:PermSize=10M -XX:MaxPermSize=10M
 */
public class RuntimeConstantPoolOOM {

	public static void main(String[] args) {
		// 使用List保持着常量池引用,避免Full GC回收常量池行为
		List list = new ArrayList();
		// 10MB的PermSize在integer范围内足够产生OOM了
		int i = 0;
		while (true) {
			list.add(String.valueOf(i++).intern());
		}
	}
}

      运行时常量池属于方法区。

4、方法区溢出

      方法区用于存放Class的相关信息,如类名、访问修饰符、常量池、字段描述、方法描述等。对这个区域的测试,基本思路是运行时产生大量的类去填满方法区,直到溢出。

      CGLib (Code Generation Library) 是一个强大的,高性能,高质量的Code生成类库。它可以在运行期扩展Java类与实现Java接口。Hibernate用它来实现PO字节码的动态生成。CGLib 比 Java 的 java.lang.reflect.Proxy 类更强的在于它不仅可以接管接口类的方法,还可以接管普通类的方法。

      CGLib 的底层是Java字节码操作框架 —— ASM。

       通过CGLib可以来验证方法区溢出问题。

/**
 * VM Args:-XX:PermSize=10M -XX:MaxPermSize=10M
 */
public class JavaMethodAreaOOM {

	public static void main(String[] args) {
		while (true) {
			Enhancer enhancer = new Enhancer();
			enhancer.setSuperclass(OOMObject.class);
			enhancer.setUseCache(false);
			enhancer.setCallback(new MethodInterceptor() {
				@Override
				public Object intercept(Object obj, Method method, Object[] args, MethodProxy proxy) throws Throwable {
					return proxy.invokeSuper(obj, args);
				}
			});
			enhancer.create();
		}
	}
	
	static class OOMObject {
		
	}

}

       当前的很多主流框架,如Spring和Hibernate对类进行增强时,都会使用到CGLib这类字节码技术,增强的类越多,就需要越大的方法区来保证动态生成的Class可以加载如内存。

5、本地直接内存溢出

       DirectMemory容量可通过-XX:MaxDirectMemorySize指定,如果不指定,则默认与Java堆的最大值(-Xmx指定)一样。

 

五、垃圾回收器

       垃圾收集(Garbage Collection, GC),可以回收堆上的对象,还可以回收方法区的“废弃常量”和“无用的类”。

1、判断对象是否存活

       GC在对堆进行回收之前,第一件事就是确定哪些对象可以回收。

       方案一:引用计数算法(Reference Counting)

       过程是:给对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1;任何时刻计数器都为0的对象就是不可能再被使用的,可以回收。

        引用计数方案最大的问题是:很难解决对象之间的相互循环引用的问题。当两个对象没有其他对象引用,只是它们之间相互引用对方,此时这两个对象已经不能再被访问,但是引用计数都不为0;

        所以,虚拟器不是通过引用计数算法来判断对象是否存活的

       方案二:根搜索算法(GC Roots Tracing)

       思路是:通过一系列的名为“GC Roots”的对象作为起始点,从这些节点开始向下搜素,搜索所走过的路径称为引用链(Reference Chain),当一个对象到GC Roots没有任何引用链相连(用图论的话来说就是从GC Roots到这个对象不可达)时,则证明此对象是不可用的

       在Java语言里,可作为GC Roots的对象包括以下几种:

       ** 虚拟机栈(栈帧中的本地变量表)中的引用的对象

       ** 方法区中的类静态属性引用的对象

       ** 方法区中的常量引用的对象。

       ** 本地方法栈中JNI(即一般说的Native方法)的引用的对象。

2、引用

       在JDK 1.2之前, Java中引用的定义时:如果reference类型的数据中存储的数值代表的是另外一块内存的起始地址,就称这块内存代表着一个引用。

       在JDK1.2之后,Java对引用的概念进行了扩充,将引用分为强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Weak Reference)、虚引用(Phantom Reference)四种。这四种引用强度依次逐渐减弱。

        ** 强引用,就是指在程序代码之中普遍存在的,类似“Object obj = new Object()”这类的引用,只要强引用存在,垃圾回收器永远不会回收掉被引用的对象。

        ** 软引用, 是指一些有用,但并非必需的对象,对于软引用关联着的对象,在系统将要发生内存溢出异常之前,将会把这些对象列进回收范围之中并进行第二次回收。如果这次回收还是没有足够的内存,才会抛出内存溢出异常。

        ** 弱引用,被弱引用关联的对象只能生存到下一次垃圾收集发生之前。当垃圾收集器工作时,无论当前内存是否足够,都会回收掉只被弱引用关联的对象。

        ** 虚引用,一个对象是否有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用关联的唯一目的就是希望能在这个对象被收集器回收时收到一个系统通知。

 

3、关于对象的死亡的二次标记

       要真正宣告一个对象死亡,至少要经历两次标记过程:如果对象在进行根搜索后发现是不可达的,那么它将会被第一次标记并且进行一次筛选,筛选的条件是此对象是否有必要执行finalize()方法。当对象没有覆盖finalize()方法或者finalize()方法已经被虚拟机调用过,这两种情况将被视为“没有必要执行finalize()”。

       如果一个对象被判定为有必要执行finalize()方法,那么这个对象将会被放置在一个名为F-Queue的队列中,并在稍后由一条由虚拟机自动建立的、低优先级的Finalizer线程去执行调用finalize(),稍后GC将对F-Queue中的对象进行第二次小规模的标记,如果对象在finalize()中又重新关联到了GC Roots对象,那么第二次标记时它将被移除出“即将回收”的集合,否则,对象将被回收。

     下例演示了一个对象可能通过执行finalize()方法逃脱被回收:

public class FinalizeEscapeGC {

	public static FinalizeEscapeGC SAVE_HOOK = null;
	
	public void isAlive() {
		System.out.println("yes, i am still alive :)");
	}
	
	@Override
	protected void finalize() throws Throwable {
		super.finalize();
		System.out.println("finalize method executed!");
		FinalizeEscapeGC.SAVE_HOOK = this;
	}
	public static void main(String[] args) throws InterruptedException {
		SAVE_HOOK = new FinalizeEscapeGC();
		
		// 对象第一次成功拯救自己
		SAVE_HOOK = null;
		System.gc();
		// 因为Finalizer方法优先级很低,暂停0.5秒,以等待它
		Thread.sleep(500);
		if (SAVE_HOOK != null) {
			SAVE_HOOK.isAlive();
		} else {
			System.out.println("no, i am dead :(");
		}

		// 下面这段代码与上面的完全相同,但是这次自救却失败了
		SAVE_HOOK = null;
		System.gc();
		// 因为Finalizer方法优先级很低,暂停0.5秒,以等待它
		Thread.sleep(500);
		if (SAVE_HOOK != null) {
			SAVE_HOOK.isAlive();
		} else {
			System.out.println("no, i am dead :(");
		}
	}
}

注意:上述代码中对象第一次逃脱成功,第二次失败,其中的原因是:任何一个对象的finalize()方法都只会被系统自动调用一次,第二次面临回收时,它的finalize()方法不会再被调用。

 

注意:建议尽量避免使用finalize()方法,因为它的运行代价高昂,不确定性大,无法保证各个对象的调用顺序。

 

4、回收方法区

      Java虚拟机规范中并没有要求必须在方法区实现垃圾回收,在方法区进行垃圾收集的“性价比”一般比较低:在堆中,常规应用进行一次垃圾回收一般可以回收70%~80%的空间,而代码区(永久代)的垃圾回收效率远低于此。

      代码区回收的内容有:废弃常量和无用的类。

      回收废弃常量的方法与回收堆中的对象非常类似,常量池中的其他类(接口)、方法、字段的符号引用也与此类似。

      回收“无用的类”的条件是:同时满足以下3个条件的类才算是“无用的类”:

      ** 该类所有的实例都已经被回收,也就是Java堆中不存在该类的任何实例

      ** 加载该类的ClassLoader已经被回收。

      ** 该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。

    

注:是否对类进行回收,HotSpot虚拟机提供了-Xnoclassgc参数进行控制,还可以使用-verbose:class及-XX:+TraceClassLoading、-XX:+TraceClassUnLoading查看类的加载和卸载信息。

 

 

六、垃圾回收算法

 

1、标记-清除算法

      “标记-清除”算法是最基础的垃圾回收算法,之所以说它是最基础的收集算法,是因为后续的收集算法都是基于这种思路并对其缺点进行改进得到的。

      该算法分为两个阶段:“标记”和“清除”,首先标记出所有需要回收的对象,然后在标记完成后统一回收掉所有被标记的对象。

      主要缺点有两个:

             一个是效率问题,标记和清除过程的效率都不高;

             另外一个是空间问题,标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致,当程序在以后的运行过程中需要分配较大对象时无法找到足够的连续内存而不得不提前触发另外一次垃圾回收动作。

       标记-清除算法的执行过程如下图所示:

《深入理解Java虚拟机》读书笔记1_第3张图片

 

2、复制算法

      为了解决效率问题,出现了“复制”的收集算法。

      思路是:将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。

      优点是:内存分配时不用考虑内存碎片等复杂情况,实现简单,运行高效

      缺点是:可利用的内存空间缩小为原来的一半,内存利用率低。

 

      复制算法的执行过程如下:

《深入理解Java虚拟机》读书笔记1_第4张图片

               

注:现在的商业虚拟机中都采用这种回收算法来回收新生代(关于新生代、老年代参看:http://www.cnblogs.com/E-star/p/5556188.html)。IBM的专门研究表明,新生代中的对象98%是朝生夕死的,所以并不需要按照1:1的比例来划分内存空间,而是将内存分为一块较大的Eden空间和两块较小的Survivor空间,每次使用Eden和其中的一块Survivor。当回收时,将Eden和Survivor中还存活着的对象一次性地拷贝到另外一块Survivor空间上,最后清理掉Eden和刚才用过的Survivor的空间。HotSpot虚拟机默认Eden和Survivor的大小比例是8:1,也就是每次新生代中可用的内存空间为整个新生代容量的90%(80%+10%),只有10%的内存时会被“浪费”的。当然,实际中当Survivor空间不够用时,需要依赖其他内存(这里指老年代)进行分配担保(Handel Promotion)。

 

3、标记-整理算法(Mark-Compact)

      复制收集算法在对象存活率较高时就要执行较多的复制操作,效率将会变低。更关键的是,如果不想浪费50%的空间,就需要有额外的空间进行分配担保。

算法思路:标记过程仍然与“标记-清除”算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,然后直接清理掉端边界以外的内存。

算法示意图如下:

《深入理解Java虚拟机》读书笔记1_第5张图片

 

4、分代收集算法(Generational Collection)

       该算法只是根据对象存活周期的不同将内存划分为几块。一般是把Java堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适合的收集算法。新生代中,每次来及收集时都发现有大批对象死去,只有少量存活,就选用复制算法。而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用“标记-清理”或“标记-整理”算法来回收。

 

七、垃圾收集器实现

      不同厂商、不同版本的虚拟机锁提供的垃圾收集器都可能会有很大的差别。并且一般都会提供参数供用户根据自己的应用特点和要求组合出各个年代所使用的收集器。

下图是HotSpot虚拟机1.6版Undate 22d的所有收集器:

《深入理解Java虚拟机》读书笔记1_第6张图片

注;如果两个收集器之间存在连线,就说明它们可以搭配使用。

 

1、Serial收集器

      Serial是一个新生代收集器,曾经是JDK1.3.1之前新生代唯一的垃圾收集器。采用复制算法

      Serial是一个单线程收集器,会使用一个CPU、一条线程去完成垃圾回收,并且在进行垃圾回收的时候必须暂停其他所有的工作线程,直到垃圾收集结束(这被称为“Stop The World”)。

      Serial收集器仍然是虚拟机运行在Client模式下的默认新生代收集器。它的优点是:简单而高效(与其他收集器的单线程比)。对于限定单个CPU的环境来说,Seria收集器由于没有线程交互的开销,专心做垃圾收集自然可以获得最高的单线程收集效率。

      Serial/Serial Old收集器运行示意图如下:

 

 

    《深入理解Java虚拟机》读书笔记1_第7张图片  

 

2、ParNew收集器

     ParNew收集器也是一个新生代收集器,是Serial收集器的多线程版本。也采用复制算法。除了使用多条线程进行垃圾回收之外,其他行为与Serial收集器一样。

     ParNew收集器在单CPU的环境中效果不会比Serial收集器更好,甚至由于存在线程交互的开销,性能可能会更差。

     ParNew收集器在多CPU环境下是更高效的,它默认开启的收集线程数与CPU的数量相同。

     ParNew/Serial Old收集器运行示意图如下:

《深入理解Java虚拟机》读书笔记1_第8张图片

3、Parallel Scavenge收集器

        Parallel Scavenge收集器也是一个新生代收集器。也是用复制算法,同时也是并行的多线程收集器

        Parallel Scavenge收集器的特点是关注点与其他收集器不同,Parallel Scavenge的关注点是“吞吐量(Throughput)”,吞吐量就是CPU用于运行用户代码的时间与CPU总消耗时间的比值,即吞吐量=运行用户代码时间/(运行用户代码时间+垃圾收集时间)。其他收集器关注的是“垃圾收集时的停顿时间”。

       停顿时间越短就越适合需要与用户交互的程序,良好的响应速度能提升用户的体验; 而高吞吐量则可以最高效率地利用CPU时间,尽快地完成程序的运算任务,适合在后台运算不需要太多交互的任务。

       Parallel Scavenge收集器可以通过参数控制最大垃圾收集停顿时间和吞吐量大小。注意:GC停顿时间缩短是以牺牲吞吐量和新生代空间来换取的。因为:系统把新生代空间调小一些,收集的速度就快一些,也就导致垃圾收集要更频繁(空间不够用),比如原来10秒收集一次,一次停顿100毫秒,现在5秒收集一次,每次停顿70毫秒,停顿时间的确在下降,但吞吐量也降下来了。

       此外Parallel Scavenge收集器可通过参数开关控制GC自动动态调整参数来提供最合适的停顿时间或最大吞吐量,这种调节方式称为GC自适应的调节策略(GC Ergonomics)。

       自适应调节策略也是Parallel Scavenge收集器与ParNew收集器的一个重要区别。

注:Parallel Scavenge收集器无法与CMS收集器配合使用。(原因是Parallel Scavenge收集器及G1收集器都没有使用传统的GC收集器代码框架,而是另外独立实现的)

 

4、Serial Old收集器

       Serial Old是Serial收集器的老年代版本。同样是一个单线程收集器,使用“标记-整理”算法。这个收集器的主要意义是被Client模式下的虚拟机使用。在Server模式下,它主要还有两大用途:一个是在JDK1.5及以前的版本中与Parallel Scavenge收集器搭配使用,另外一个就是作为CMS收集器的后备预案,在并发收集发生Concurrent Mode Failure的时候使用。

 

5、Parallel Old收集器

       Parallel Old是Parallel Scavenge收集器的老年代版本。使用多线程和“标记-整理”算法。单线程的老年代Serial Old收集器在服务端性能比较差,即使新生代使用了Parallel Scavenge收集器也未必能在整体应用上获得吞吐量最大化的效果。

       在注重吞吐量及CPU资源敏感的场合,都可以优先考虑Parallel Scavenge收集器加上Parallel Old收集器组合使用。

Parallel Scavenge/ Parallel Old收集器运行示意图如下:

《深入理解Java虚拟机》读书笔记1_第9张图片

 

6、CMS收集器

        CMS(Concurrent Mark Sweep)收集器是一种以获取最短回收停顿时间为目标的收集器。最符合重视服务响应速度。希望系统停顿时间最短的应用

该收集器是基于“标记-清除”算法实现的。过程分为4个步骤:

       初始标记(CMS initial mark)、并发标记(CMS concurrent mark)、重新标记(CMS remark)、并发清除(CMS concurrent sweep).

       其中初始标记、重新标记这两个步骤仍然需要“Stop The World”。初始标记仅仅只是标记一下GC Roots能直接关联到的对象,速度很快,并发标记阶段就是进行GC Roots Tracing的过程,而重新标记阶段则是为了修正并发标记期间,因用户程序继续运行而导致标记产生变动的那一部分对象的标记记录,这个阶段的停顿时间一般会比初始标记阶段稍长一些,但远比并发标记的时间短。

       Concurrent Mark Sweep收集器运行示意图如下:

《深入理解Java虚拟机》读书笔记1_第10张图片



      CMS是以款并发收集、低停顿的收集器,缺点是:对CPU资源非常敏感、无法处理浮动垃圾、基于“标记-清除”算法导致收集结束会产生大量空间碎片。

 

7、G1收集器

        G1(Carbage First)收集器, 基于“标记-整理”算法, 同时能够非常精确地控制停顿。特点是:由于采用“标记-整理”算法所以不会产生空间碎片,可以精确控制停顿,几乎已经具有实时Java(RTSJ)的垃圾收集器特征;实现在基本不牺牲吞吐量的前提下完成第停顿的内存回收。

       实现思路:G1将整个Java堆(包括新生代、老年代)划分为多个大小固定的独立区域(Region),并且跟踪这些区域里面的垃圾堆积程序,在后台维护一个优先列表。每次根据允许的收集时间,有限回收垃圾最多的区域(这就是Garbage First名称的由来),通过这种机制保证了G1收集器在有限的时间内可以获得最高的收集效率。

 

八、内存分配与回收策略

 

1、规则一:对象优先在Eden分配

关于Minor GC 和 Full GC:

*** 新生代GC(Minor GC)是指发生在新生代的垃圾收集动作,因为Java对象大多都具有朝生夕灭的特性,所以Minor GC非常频繁,一般回收速度也比较快。

*** 老年代GC(Major GC / Full GC):值发生在老年代的GC, MajorGC的速度一般会比Minor GC慢10倍以上。



    大多数情况下,对象在新生代Eden区中分配,当Eden区没有足够的空间进行分配时,会触发一次MinorGC。MinorGC的执行过程是:先尝试将Eden区域和一个Survivor区域中所有或者的对象复制到另一块Survivor,如果成功就执行完成,否则,触发分配担保机制,将Eden和Survivor中活着的对象复制到老年代中,然后执行完成。

下例演示了这个过程:

public class TestMinorGC {
	private static final int _1MB = 1024 * 1024;
	
	/**
	 * VM参数:-verbose:gc -Xms20M -Xmx20M -Xmn10M -XX:SurvivorRatio=8
	 */
	public static void testAllocation() {
		byte[] allocation1, allocation2, allocation3, allocation4;
		allocation1 = new byte[2 * _1MB];
		allocation2 = new byte[2 * _1MB];
		allocation3 = new byte[2 * _1MB];
		allocation4 = new byte[4 * _1MB]; // 出现一次Minor GC
	}
	
	public static void main(String[] args) {
		TestMinorGC.testAllocation();
	}
}

设置指定的VM参数后,运行结果如下:

[GC (Allocation Failure) [DefNew: 7136K->489K(9216K), 0.0045882 secs] 7136K->6633K(19456K), 0.0046604 secs] [Times: user=0.00 sys=0.00, real=0.01 secs] 
Heap
 def new generation   total 9216K, used 4667K [0x04a00000, 0x05400000, 0x05400000)
  eden space 8192K,  51% used [0x04a00000, 0x04e14938, 0x05200000)
  from space 1024K,  47% used [0x05300000, 0x0537a5f0, 0x05400000)
  to   space 1024K,   0% used [0x05200000, 0x05200000, 0x05300000)
 tenured generation   total 10240K, used 6144K [0x05400000, 0x05e00000, 0x05e00000)
   the space 10240K,  60% used [0x05400000, 0x05a00030, 0x05a00200, 0x05e00000)
 Metaspace       used 1731K, capacity 2242K, committed 2368K, reserved 4480K

分析:

<1>、 总空间:

        新生代10M总空间中:Eden占8192K、from space 占1024K、to space占1024K,总共利用了9216K空间(因为理论上是90%的利用率)。

        老年代10M总空间中(tenured generation)总共占10240K空间。

<2>、程序执行时,allocation1、allocation2、allocation3都顺利在Eden上各分到了2M空间,此时Eden被使用了6M空间。

      当为allocation4分配需要的4M空间时,虚拟机发现Eden剩余空间不够(只剩3M(Eden:2M + Survivor:1M)),所以触发一次Minor GC,我们上面提到MinorGC的执行过程,MinorGC发现无法将Eden和Survivor上活着的对象全部复制到另一块Survivor中,就触发了分配担保机制,直接将这些或者的对象复制到老年代中。

      这时,Eden已经空了,程序可以为allocation4分配4M的Eden空间。

      因此,这次Minor GC的结果是,新生代中占用了4M多空间(allocation4占用4M + 其他对象几百K空间),老年代中占用6M空间(就是allocation1、allocation2、allocation3占用的空间)。

 

2、规则二:大对象直接进入老年代

      所谓大对象就是指,需要大量连续内存空间的Java对象。

      虚拟机提供了一个-XX:PretenureSizeThreshold参数,令大于这个设置值的对象直接在老年代中分配。这样做的目的是避免在Eden区及两个Survivor区之间发生大量的内存拷贝。

     注:PretenureSizeThreshold参数只对Serial和ParNew两款收集器有效,Parallel Scavenge收集器不需要设置。

例如:

public class TestMinorGC2 {
	private static final int _1MB = 1024 * 1024;
	/**
	 * VM参数:-verbose:gc -Xms20M -Xmx20M -Xmn10M -XX:SurvivorRatio=8
	 * -XX:PretenureSizeThreshold=3145728
	 */
	public static void testPretenureSizeThreshold() {
		byte[] allocation;
		allocation = new byte[4 * _1MB]; // 直接分配在老年代中
	}
	public static void main(String[] args) {
		TestMinorGC2.testPretenureSizeThreshold();
	}
}

     设置指定VM参数后,上述代码的执行结果显示,Eden空间几乎没有被占用,老年代空间被占用4M,也就是allocation对象直接分配在老年代中。

 

3、规则三:长期存活的对象将进入老年代

       虚拟机给每个对象定义了一个对象年龄(Age)计数器,如果对象在Eden出生并经过第一次Minor GC后仍然存活,并且能被Survivor容纳的话,将被移动到Survivor空间中,并将对象年龄设为1。对象在Survivor区中每熬过一次Minor GC,年龄就增加1岁,当它的年龄增加到一定程度(默认为15岁)时,就会被晋级到老年代中,对象晋级到老年大的年龄阈值,可以通过参数-XX:MaxTenuringThreshold来设置。

 

4、规则四:动态对象年龄判定

      虚拟机并不总是要求对象的年龄必须达到MaxTenuringThreshold才能晋升老年代,如果在Survivor空间中相同年龄所有对象大小的总和大于Survivor空间的一半,年龄大于或等于该年龄的对象就可以直接进入老年代,无需等到MaxTenuringThreshold中要求的年龄。

 

5、规则五:空间分配担保

     在发生Minor GC时,虚拟机会检查之前每次晋升到老年代的平均大小是否大于老年代的剩余空间大小,如果大于,则改为直接进行一次Full GC。如果小于,则查看HandlePromotionFailure参数设置是否允许担保失败:如果允许,那只会进行Minor GC;如果不允许,则也要改为进行一次Full GC来仍老年代腾出更多空间。

      在Minor GC发生前一共有多少对象会活下来,在实际完成内存回收之前是无法明确知道的,取之前每次回收晋升到老年代对象容量的平均大小值其实仍然是一种动态概率的手段。

       注:大部分情况下都应该将HandlePromotionFailure开关打开,避免Full GC过于频繁。

 

九、总结:

       内存回收与垃圾收集器在很多时候都是影响系统性能、并发能力的主要因素之一,虚拟机之所以提供多种不同的收集器及大量的调节参数,是因为只有根据实际应用需求、实现方式选择最优的收集方式才能获取最好的性能。

 

思维导图:http://naotu.baidu.com/file/6fcdb42fb7f08c9f993d8e9f13a20c9c

 

你可能感兴趣的:(Java)