JVM 内存结构
Java虚拟机的内存空间分为5个部分:
- 程序计数器
- Java虚拟机栈
- 本地方法栈
- 堆
- 方法区
JDK 1.8同 JDK1.7比,最大的区别就是:元数据区取代了永久代。元空间的本质和永久代类似,都是对JVM规范中方法区的实现。不过元空间与永久代之间最大的区别在于:元数据空间并不在虚拟机中,而是使用本地内存。
程序计数器
程序计数器的定义
程序计数器是一块较小的内存空间,是当前线程正在执行的那条字节码指令的地址。若当前线程正在执行的是一个本地方法,那么此时程序计数器为 Undefined
程序计数器的作用
- 字节码解释器通过改变程序计数器来依次读取指令,从而实现代码的流程控制。
- 在多线程情况下,程序计数器记录的是当前线程执行的位置,从而当线程切换回来时,就知道上次线程执行到哪儿了。
程序计数器的特点
- 是一块较小的内存空间。
- 线程私有,每条线程都有自己的程序计数器。
- 生命周期:随线程的创建而创建,随线程的结束而销毁。
- 是唯一一个不会出现
OutOfMemoryError
的内存区域。
Java虚拟机栈(Java栈)
Java虚拟机栈的定义
Java虚拟机栈是描述Java方法运行过程的内存模型。
Java虚拟机栈会为每一个Java方法创建一块叫做"栈帧"的区域,用于存放该方法运行过程中的一些信息,如:
- 局部变量表
- 动态链接
- 方法出口信息
- 操作数栈
- …
压栈出栈过程
当方法运行过程中需要创建局部变量时,就将局部变量的值存入栈帧中的局部变量表中。
Java虚拟机栈的栈顶的栈帧是当前正在执行的活动栈,也就是当前正在执行的方法,PC寄存器也会指向这个地址。只有这个活动的栈帧的本地变量可以被操作数栈使用,当在这个栈帧中调用另外一个方法,与之对应的栈帧又会被创建,新创建的栈帧压入栈顶,变为当前的活动栈。
方法结束后,当前栈帧被移出,栈帧的返回值变成新的活动栈中操作数栈的一个操作数。如果没有返回值,那么新的活动栈帧中的操作数栈的操作数没有变化。
由于Java虚拟机栈是与线程对应的,数据不是线程共享的(也就是线程私有),因此不用关系数据一致性问题,也不会存在同步锁的问题。
局部变量表
定义为一个数字数组,主要用于存储方法参数、定义在方法体内部的局部变量,数据类型包括各类基本数据类型,对象引用,以及return address类型。
局部变量表容量大小是在编译期确定下来的。最基本的存储单元是slot,32位占用1个slot,64位类型(long和double)占用两个slot。
对于slot的理解:
- JVM虚拟机会为局部变量表中的每个slot都分配一个访问索引,通过这个索引即可成功访问到局部变量表中指定的局部变量值。
- 如果当前帧是构造方法或者实例方法创建的,那么该对象引用this,会存放在index为0的slot处,其余的参数表顺序继续排列。
- 栈帧中的局部变量表中的槽位是可以重复的,如果一个局部变量过了其作用域,那么其作用域之后声明的新的局部变量就有可能会复用过期局部变量的槽位,从而达到节省资源的目的。
在栈帧中,与性能调优关系密切的部分,就是局部变量表,方法执行时,虚拟机使用局部变量表完成方法的传递局部变量表中的变量也是重要的垃圾回收根节点,只要被局部变量表中直接或间接引用的对象都不会被回收。
操作数栈
- 栈顶缓存技术: 由于操作数是存储在内存中,频繁进行内存读写操作影响执行速度,将栈顶元素全部缓存到物理CPU寄存器中,从此降低内存的读写次数,提升执行引擎的执行效率。
- 每一个操作数栈会拥有一个明确的栈深度,用于存储数值,最大深度在编译期就定义好。32bit类型占用一个栈单位深度,64bit类型占用两个栈单位深度操作数栈。
- 并非采用访问索引方式进行数据访问,而是只能通过标准的入栈出栈操作完成一次数据访问。
方法的调用
-
静态链接:当一个字节码文件被装载进JVM内部时,如果被调用的目标方法在编译期可知,且运行期间保持不变,这种情况下调用方的符号引用转为直接引用的过程成为静态链接。
-
动态链接:如果被调用的方法无法在编译期确定下来,只能在运行期将调用的方法的符号引用转为直接引用,这种引用过程具备动态性,因此被称为动态链接。
-
方法绑定
- 早期绑定:被调用的目标方法如果在编译期可知,且运行期保持不变。
- 晚期绑定:被调用的方法在编译期无法确定,只能够在程序运行期根据实际的类型绑定相关的方法。
-
非虚方法:如果方法在编译期就确定了具体的调用版本,则这个版本在运行时是不可变的。这样的方法称为非虚方法静态方法,私有方法,final方法,实例构造器,父类方法都是非虚方法,除了这些以外都是虚方法。
-
虚方法表:面向对象的编程中,会很频繁的使用动态分配,如果每次动态分配的过程都要重新在类的方法元数据中搜索合适的目标的话,就可能影响执行效率,因此为了提高性能,JVM 采用在类的方法区建立一个虚方法表,使用索引表代替查找。
- 每个类都有一个虚方法表,表中存放着各个方法的实际入口。
- 虚方法表会在类加载的链接阶段被创建,并开始初始化,类的变量初始值准备完成之后,JVM会把该类的方法页初始化完毕。
-
方法重写的本质
- 找到操作数栈顶的第一个元素所执行的对象执行类型,记做C。如果在类型C中找到与常量池中描述符和简单名称都相符的方法,则进行访问权限校验。
- 如果通过则返回这个方法的直接引用,查找过程结束;如果不通过,则返回
java.lang.IllegalAccessError
异常
- 否则,按照继承关系从上往下依次对C的各个父类进行上一步的搜素和验证过程。
- 如果始终没有找到合适的方法,则抛出
java.lang.AbstractMethodError
异常。
Java中任何一个普通方法都具备虚函数的特征(运行期确认,具备晚期绑定的特点),C++中则使用关键字virtual来显式定义。如果在Java程序中,不希望某个方法拥有虚函数的特征,则可以使用关键字final来标记方法。
Java虚拟机栈的特点
-
运行速度特别快,仅仅次于PC寄存器。
-
局部变量表随着栈帧创建而创建,它的大小在编译时确定,创建时只需分配事先规定的大小即可。在方法运行过程中,局部变量表的大小不会发生改变。
-
Java虚拟机栈会出现两种异常:StackOverFlowError
和OutOfMemoryError
。
- StackOverFlowError若Java虚拟机栈的大小不允许动态扩展,那么当线程请求栈的深度超过当前Java虚拟机的最大深度时,抛出StackOverFlowError异常。
- OutOfMemoryError若允许动态扩展,那么当前线程请求栈时内存用完了,无法再动态扩展时,抛出OutOfMemoryError异常。
-
Java虚拟机栈是线程私有的,随线程创建而创建,随线程的结束而销毁。
-
出现StackOverFlowError时,内存空间可能还有很多。
常见的运行时异常有:
- NullPointerException 空指针异常
- ClassCastException 类型强制转换异常
- IllegalArgumentException 传递非法参数异常
- ArithmeticException 算术运算异常
- ArrayStoreException 向数组中存放与声明类型不兼容对象异常
- IndexOutOfBoundsException 下标越界异常
- NegativeArraySizeException 创建一个大小为负数的数组错误异常
- NumberFormatException 数字格式异常
- SecurityException 安全异常
- UnsupportedOperationException 不支持的操作异常
本地方法栈(C 栈)
本地方法栈的定义
本地方法栈是为了JVM运行Native方法准备的空间,由于很多Native方法都是用C语言实现的,所以它通常又叫C栈。它与Java虚拟机栈实现的功能类似,只不过本地方法栈是描述本地方法运行过程的内存模型。
栈帧变化过程
本地方法被执行时,在本地方法栈也会创建一块栈帧,用于存放该方法的局部变量表、操作数栈、动态链接、方法出口信息等。
方法执行结束后,相应的栈帧也会出栈,并释放内存空间。也会抛出StackOverFlowError和OutOfMemoryError异常。
如果Java虚拟机本身不支持Native方法,或是本身不依赖与传统栈,那么可以不提供本地方法栈。如果支持本地方法栈,那么这个栈一般会在线程创建的时候按线程分配。
堆
堆的定义
堆是用来存放对象的内存空间,几乎
所有的对象都存储在堆中。
堆的特点
- 线程共享,整个Java虚拟机只有一个堆,所有线程共享一个堆。而程序计数器、Java虚拟机栈、本地方法栈都是一个线程对应一个。
- 在虚拟机启动时创建。
- 是垃圾回收的主要场所。
- 堆可分为新生代(Eden区:
From Survivor
,To Survivor
)、老年代。
- Java虚拟机规范规定,堆可以处于物理上不连续的内存空间中,但在逻辑上它应该被视为连续的。
- 关于Survivor s0,s1区:复制之后有交换,谁空谁是to。
不同的区域对应不同生命周期的对象,这样可以根据不同的区域使用不同的垃圾回收算法,更具有针对性。
堆的大小既可以固定也可以扩展,但对于主流的虚拟机,堆的大小是可扩展的,因此当线程请求分配内存,但堆已满,且内存已无法再扩展时,就抛出OutOfMemoryError异常。
Java堆所使用的内存不需要保证是连续的。而由于堆是被所有线程共享的,所有对它的访问需要注意同步问题,方法和对应的属性都需要保证一致性。
新生代和老年代
- 老年代比新生代生命周期长。
- 新生代与老年代默认比例为
1:2
:JVM调参数,XX:NewRatio=2
,表示新生代占1,老年代占2,新生代占整个堆的1/3。
- HotSpot中,Eden空间和另外两个Survivor空间缺省所占的比例是8:1:1
- 几乎所有的Java对象都是在Eden区被new出来的,Eden放不了的对象,就直接进入老年代了。
对象分配的过程
- new的对象先放在Eden区,大小有限制。
- 如果创建新对象时,Eden空间填满了,就会触发Minor GC,将Eden不再被其他对象引用的对象销毁,再加载新的对象放到Eden区,特别注意的是Survivor区满了是不会触发Minor GC的,而Eden空间填满了,Minor GC才顺便清理Survivor区。
- 将Eden中剩余的对象移到Survivor0区
- 再次触发垃圾回收,此时上次Survivor下来的,放到Survivor0区的,如果没有回收,就会放到Survivor1。
- 再次经历垃圾回收,又会将幸存者重新放回Survivor0区,以此类推
- 默认是15次的循环,超过15次,则会将幸存下来的转去老年区jvm参数设置次数:-XX:MaxTenuringThreshold=N进行设置
- 频繁在新生区收集,很少在养老区收集,几乎不在永久区/元空间搜集
Full GC/Major GC触发条件
- 显示调用
System.GC()
,老年代的空间不够,方法区的空间不够等会触发Full GC,同时对新生代和老年代回收,Full GC的STW(stop the world)的时间最长,应该要避免。
- 在出现Major GC之前,会先触发Minor GC,如果老年代的空间还是不够就会触发Major GC,STW的时间长于Minor GC。
逃逸分析
-
标量替换
- 标量不可再分解的量,java的基本数据类型就是标量,标量的对立就是可以被进一步分解的量,而这种量称之为聚合量。而在Java中对象就是可以被进一步分解的聚合量。
- 替换过程,通过逃逸分析确定该对象不会被外部访问,并且对象可以进一步分解时,JVM不会创建该对象,而会将该对象成员变量分解若干个被这个方法使用的成员变量所代替。这些代替的成员变量在栈帧或寄存器上分配空间。
-
对象和数组并非都是在堆上分配内存的
-
《深入理解Java虚拟机》中关于Java堆内存有这样一段描述:随着JIT编译期的发展与逃逸分析技术逐渐成熟,栈上分配
,标量替换
优化技术将会导致一些变化,所有对象都分配到堆上也渐渐变得不那么"绝对"了。
-
这是一种可以有效减少Java内存堆分配压力的分析算法,通过逃逸分析,Java HotSpot编译器能够分析一个新的对象的引用的使用范围从而决定是否要将这个对象分配到堆上。
-
当一个对象在方法中被定义后,它可能被外部方法引用,如作为调用参数传递到其他地方中,称为方法逃逸
。
-
再如赋值给类变量或可以在其他线程中访问的实例变量,称为线程逃逸
。
-
使用逃逸分析,编译器可以对代码做如下优化:
- 同步省略:如果一个对象被发现只能从一个线程被访问到,那么对于这个对象的操作可以不考虑同步。
- 将堆分配转化为栈分配:如果一个对象在子程序中被分配,要使指向该对象的指针永远不会发生逃逸,对象可能是栈分配的候选,而不是堆分配。
- 分离对象或标量替换:有的对象可能不需要作为一个连续的内存结构存在也可以被访问到,那么对象的部分(或全部)可以不存储在内存,而是存储在CPU寄存器中。
public static StringBuffer createStringBuffer(String s1, String s2) {
StringBuffer s = new StringBuffer();
s.append(s1);
s.append(s2);
return s;
}
s 是一个方法内部变量,上边的代码中直接将 s 返回,这个 StringBuffer 的对象有可能被其他方法所改变,导致它的作用域就不只是在方法内部,即使它是一个局部变量,但还是逃逸到了方法外部,称为方法逃逸
。
还有可能被外部线程访问到,譬如赋值给类变量或可以在其他线程中访问的实例变量,称为线程逃逸
。
- 在编译期间,如果JIT经过逃逸分析,发现有些对象没有逃逸出方法,那么有可能堆内存分配会被优化成栈内存分配。
- jvm参数设置,-XX:+DoEscapeAnalysis :开启逃逸分析,-XX:-DoEscapeAnalysis:关闭逃逸分析
- 从jdk1.7开始已经默认开启逃逸分析。
TLAB
- TLAB的全称是Thread Local Allocation Buffer,即线程本地分配缓存区,是属于Eden区的,这是一个线程专用的内存分配区域,线程私有,默认开启的(不是绝对的,也要看哪种类型的虚拟机)。
- 堆是全局共享的,在同一时间,可能会多个线程在堆上申请空间,但每次的对象分配需要同步的进行(虚拟机采用CAS配上失败重试的方式保证更新操作的原子性)但是效率却有点下降。
- 所以用 TLAB 来避免多线程冲突,在给对象分配内存时,每个线程使用自己的 TLAB,这样可以使得线程同步,提高了对象分配的效率。
- 当然并不是所有的对象都可以在 TLAB 中分配内存成功,如果失败了就会使用加锁的机制来保持操作的原子性。
-XX:+UseTLAB
使用 TLAB,-XX:+TLABSize
设置 TLAB 大小
四种引用方式
- 强引用:创建一个对象并把这个对象赋给一个引用变量,普通new出来对象的变量引用都是强引用,有引用变量指向时永远不会被垃圾回收,jvm即使抛出OOM,可以将引用赋值为null,那么它所指向的对象就会被垃圾回收。
- 软引用:如果一个对象具有软引用,内存空间足够,垃圾回收器不会回收它,如果内存空间不足了,就会回收这些对象的内存。只要垃圾回收器没有回收它,该对象就可以被程序引用。
- 弱引用:非必需对象,当JVM进行垃圾回收时,无论内存是否充足,都会回收被弱引用关联的对象。
- 虚引用:虚引用并不会决定对象的生命周期,如果一个对象仅持有虚引用,那么它和没有任何引用一样,在任何时候都可能被垃圾回收器回收。
方法区
方法区的定义
Java虚拟机规范中定义方法区是堆的一个逻辑部分。方法区存放以下信息:
- 已经被虚拟机加载的类信息
- 常量
- 静态变量
- 即使编译器编译后的代码
方法区的特点
- 线程共享。方法区是堆的一个逻辑部分,因此和堆一样,都是线程共享的。整个虚拟机中只有一个方法区。
- 永久代。方法区中的信息一般需要长期存在,而且它又是堆的逻辑分区,因此用堆的划分方法,把方法区称为"永久代"
- 内存回收效率低。方法区中的信息一般需要长期存在,回收一遍之后可能只有少量信息无效。主要回收目标是:对常量池的回收;对类型的卸载。
- Java虚拟机规范对方法区的要求比较宽松。和堆一样,允许固定大小,也允许动态扩展,还允许不实现垃圾回收。
运行时常量池
方法区中存放:类信息、常量、静态变量、即使编译器编译后的代码。常量就存放在运行时常量池中。
当类被Java虚拟机加载后,.class
文件中的常量就存放在方法区的运行时常量池中。而且在运行期间,可以向常量池中添加新的常量。如String类的intern()
方法就能在运行期间向常量池中添加字符串常量。
直接内存(堆外内存)
直接内存是除Java虚拟机之外的内存,但也可能被Java使用。
操作直接内存
在NIO中引入了一种基于通道和缓存的IO方式。它可以通过调用本地方法直接分配Java虚拟机之外的内存,然后通过一个存储在堆中的DirectByteBuffer
对象直接操作该内存,而无须先将外部内存中的数据复制到堆中再进行操作,从而提高了操作的效率。
直接内存大小不受Java虚拟机控制,但既然是内存,当内存不足时就会抛出OutOfMemoryError异常。
直接内存与堆内存比较
- 直接内存申请空间耗费更高的性能。
- 直接内存读取IO的性能要优于普通的堆内存。
- 直接内存作用链:本地IO -> 直接内存 -> 本地IO
- 堆内存作用链:本地IO -> 直接内存 -> 非直接内存 -> 直接内存 -> 本地IO
服务器管理员在配置虚拟机参数时,会根据实际内存设置-Xmx
等参数信息,但经常忽略直接内存,使得各个内存区域总和大于物理内存限制,从而导致动态扩展时出现OutOfMemoryError
异常。
参考
Java 虚拟机底层原理知识总结 - JVM内存模型