1.JVM体系结构
2. 类装载子系统
类装载子系统负责查找并装载类型,Java虚拟机有两种类装载器:启动类装载器(Java虚拟机实现的一部分)和自定义类装载器(Java程序的一部分)。类装载子系统负责定位和加载二进制class文件,并且保证加载的类的正确性,为类变量分配内存并初始化,以及帮助解析符号引用。
3.运行时数据区
Java虚拟机定义了若干种程序运行期间会使用到的运行时数据区,其中有一些会随着虚拟机启动而创建,随着虚拟机退出而销毁。另外一些则是与线程一一对应的,这些与线程对应的数据区域会随着线程的开始和结束而进行创建和销毁。
线程是一个程序里的运行单位,JVM允许一个应用有多个线程并行的执行。在Hotspot JVM里,每个线程都与操作系统的本地线程直接映射,当一个Java线程准备好执行以后(此处的准备指的是为虚拟机栈,本地方法栈和程序计数器分配内存空间),此时一个操作系统的本地线程也同时创建。Java线程执行终止后,本地线程也会回收。
操作系统负责安排调度所有线程到一个可用的CPU上,一旦本地线程初始化成功,它就会调用Java线程的run()方法。一旦JVM中只剩下守护线程,Java虚拟机就会自动退出。
- 每个线程独有的:程序计数器,虚拟机栈,本地方法栈。
- 线程间共享:堆内存,堆外内存(永久代或元空间,代码缓存)
3.1PC寄存器
程序计数器(Program Counter Register)是一块较小的内存空间,也是运行速度最快的存储区域。每个线程都拥有自己的程序计数器,线程之间的程序计数器是互不影响的,其pc寄存器的生命周期也是与线程一致的。在PC寄存器中存储的是下一条将被执行指令的"地址",然后由执行引擎读取下一条指令。这里的"地址"可以是一个本地指针,也可以是在方法字节码中相对于该方法起始指令的偏移量。如果该线程正在执行一个本地方法,则程序计数器内容为空(undefined)。注意这里所说的PC寄存器并非物理寄存器,而是对物理寄存器的一种抽象模拟。
由于Java 虚拟机的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的,在任何一个确定的时刻,一个处理器(对于多核处理器来说是一个内核)只会执行一条线程中的指令。因此,为了线程切换后能恢复到正确的执行位置,每条线程都需要有一个独立的程序计数器,各条线程之间的计数器互不影响,独立存储,我们称这类内存区域为“线程私有”的内存。
如果线程正在执行的是一个Java 方法,这个计数器记录的是正在执行的虚拟机字节码指令的地址;如果正在执行的是Native 方法,这个计数器值则为为指定值(Undefined),因为Native方法是C语言层面的。在虚拟机的概念模型里(仅是概念模型,各种虚拟机可能会通过一些更高效的方式去实现),字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码,且指令,分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。此内存区域是唯一一个在Java 虚拟机规范中没有规定任何OutOfMemoryError 情况的区域,在该区域也不存在GC。
【面试题】:使用PC寄存器存储字节码指令地址有什么用?(为什么用使用PC寄存器记录当前线程的执行?)
答:因为CPU需要不停的切换线程,当执行完另一个线程切换回来后,pc寄存器就记录着当前线程接着从哪开始继续执行。
【面试题】:PC寄存器问什么要被设定为线程私有的?
答:由于Java 虚拟机的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的,在任何一个确定的时刻,一个处理器(对于多核处理器来说是一个内核)只会执行一条线程中的指令。因此,为了线程切换后能恢复到正确的执行位置,每条线程都需要有一个独立的程序计数器,各条线程之间的计数器互不影响,独立存储,我们称这类内存区域为“线程私有”的内存。
3.2虚拟机栈
与程序计数器一样,Java 虚拟机栈(Java Virtual Machine Stacks)也是线程私有的,它的生命周期与线程相同。每个线程在创建时都会创建一个虚拟机栈,当线程中的方法被执行的时候会同时创建一个栈帧(Stack Frame ①)用于存储局部变量表、操作栈、动态链接、方法出口等信息。每一个方法被调用直至执行完成返回的过程,就对应着一个栈帧在虚拟机栈中从入栈到出栈的过程。经常有人把Java 内存区分为堆内存(Heap)和栈内存(Stack),这种分法比较粗糙,Java 内存区域的划分实际上远比这复杂。这种划分方式的流行只能说明大多数程序员最关注的、与对象内存分配关系最密切的内存区域是这两块。其中所指的“堆”在后面会专门讲述,而所指的“栈”就是现在讲的虚拟机栈,或者说是虚拟机栈中的局部变量表部分。
局部变量表存放了编译期可知的各种基本数据类型(boolean、byte、char、short、int、float、long、double)、对象引用地址(reference 类型,它不等同于对象本身,根据不同的虚拟机实现,它可能是一个指向对象起始地址的引用指针,也可能指向一个代表对象的句柄或者其他与此对象相关的位置)和returnAddress 类型(指向了一条字节码指令的地址)。其中64 位长度的long 和double 类型的数据会占用2 个局部变量空间(Slot),其余的数据类型只占用1 个。局部变量表所需的内存空间在编译期间完成分配,当进入一个方法时,这个方法需要在帧中分配多大的局部变量空间是完全确定的,在方法运行期间不会改变局部变量表的大小。在Java 虚拟机规范中,对这个区域规定了两种异常状况:如果线程请求的栈深度大于虚拟机所允许的深度,将抛出StackOverflowError 异常;如果虚拟机栈可以动态扩展(当前大部分的Java 虚拟机都可动态扩展,只不过Java 虚拟机规范中也允许固定长度的虚拟机栈),当扩展时无法申请到足够的内存时会抛出OutOfMemoryError 异常。
栈的特点:
- 栈是一种快速有效的分配存储方式,访问速度仅次于程序计数器。
- JVM直接对Java栈的操作只有两个:1,每个方法执行,伴随着进栈(入栈,压栈) 2,执行结束后的出栈工作
- 对于栈来说不存在GC,但存在OOM。
【面试题】:栈中常见的异常有哪些?
答:Java虚拟机规范允许Java栈的大小是动态的或者固定不变的。如果采用固定大小的Java虚拟机栈,那每一个线程的Java虚拟机栈容量可以在线程创建的时候独立设置允许的最大容量,如果当线程某次请求分配的栈容量超过Java虚拟机栈剩余部分的大小,Java虚拟机将会抛出一个StackOverflowError异常。如果Java虚拟机栈可以动态扩展,并且尝试扩展的时候无法申请到足够的内存,或者在创建新的线程时没有足够的内存去创建对应的虚拟机栈,那么Java会抛出OutofMemoryError异常。
设置栈内存大小:
我们可以使用参数-Xss 选项来设置线程的最大栈空间,栈的大小直接决定了函数调用的最大可达深度。
3.2.1栈帧
每个线程都有自己的虚拟机栈,虚拟机栈中的数据都是以栈帧的形式存储的,在这个线程上正在执行的方法都各自对应一个栈帧,栈帧中存储着局部变量表、操作栈、动态链接、方法出口等信息。不同的线程中所包含的栈帧是不允许存在相互引用的,即不可能在一个栈帧之中引用另外一个线程的栈帧。
如果在A方法接着调用了B方法,在B方法返回之际,B方法的栈帧会传回方法的执行结果给A栈帧,这时候虚拟机会丢弃当前B栈帧,使得A栈帧又重新称为当前栈帧。Java方法有两种返回函数的方法,一种是正常的函数返回,使用return指令;另外一种是抛出异常,不管哪种方法,都会导致栈帧被弹出。
局部变量表(Local Variables)
局部变量表也被称为局部变量数组或本地变量表,是一个数字数组,主要用于存储方法参数和定义在方法体内的局部变量,这些数据类型包括各类基本数据类型,对象引用,以及returnAddress类型。
由于局部变量表是建立在线程的栈上,是线程私有的数据表,因此不存在数据安全问题。同时局部变量表所需的容量大小是在编译期确定的,并保存在方法的Code属性的maximum local variables 数据项中,在方法运行期间是不会改变局部变量表的大小的。另外在局部变量表中,32位以内的类型只占一个Slot(包括returnAddress),64位的类型(long和double)占用两个Slot。byte,short,char,Boolean在存储前转换为int类型,0表示false,非0表示true。
局部变量表中的变量只在当前方法调用中有效。在方法执行时,虚拟机通过使用局部变量表完成参数值到参数列表的传递过程。当方法调用结束后,随着方法栈帧的销毁,局部变量表也会随之销毁。
方法嵌套调用的次数由栈的大小决定,一般来说,栈越大,方法嵌套调用次数越多。对一个函数而言,它的参数和局部变量越多,使得局部变量表越膨胀,它的栈帧也就越大,进而函数调用就会占用更多的栈空间,导致其嵌套调用的次数就会减少。
下图是一个局部变量表:
下图是字节码指令和Java代码的对应关系:
局部变量空间(Slot):
当一个实例方法被调用的时候,该方法体中的方法参数和方法体内部定义的局部变量将会按照顺序被复制到局部变量表中的每一个Slot中。Slot是局部变量表的最基本的存储单元,且jvm会为局部变量表中的每一个Slot都分配一个访问索引,通过这个索引即可成功访问到局部变量表中指定的参数值,要注意参数值的存放总是从局部变量数组的index0位置开始,到数组长度-1的索引结束。如果需要访问局部变量表中一个64bit的局部变量值时,只需要使用前一个索引即可(比如:访问long或double类型变量)。如果当前栈帧是由构造方法或者实例方法创建的,那么该对象引用this将会存放在index为0的slot处,其余的参数按照参数表顺序继续排列。
栈帧中的局部变量表中的Slot(槽位)是可以重用的,如果一个局部变量过了其作用域,那么在其他作用域之后申明的新的局部变量就很有可能会复用过期局部变量的槽位,从而达到节省资源的目的。
操作数栈(Operand Stack)
每个独立的栈帧中除了包含局部变量表以外,还包含一个操作数栈,也可以称之为表达式栈,该操作数栈是一个数组,但包含栈的先进后出的特点。
操作数栈,主要用于保存计算过程中的中间结果,同时作为计算机过程中变量临时的存储空间。在方法执行的过程中,根据字节码指令,往栈中写入数据或提取数据,即入栈/出栈。操作数栈就是JVM执行引擎的一个工作区,当一个方法刚开始执行时,一个新的栈帧也会随之被创建出来,这时候这个栈帧中的操作数栈也会被创建,但是空的。要注意当操作树栈一被创建,就会拥有一个明确的栈深度用于存储数值,其所需的最大深度在编译期就定义好了,保存在方法的Code属性中,为max_stack的值。同Slot一样,一个32bit的类型占一个栈单位深度,一个64bit的类型占两个栈单位深度。
操作数栈并非采用索引的方式来访问数据,而是只能通过标准的入栈和出栈操作来完成一次数据访问。
动态链接(Dynamic Linking)
每一个栈帧内部都包含一个指向运行时常量池中该栈帧所属方法的引用。包含这个引用的目的就是为了支持当前方法的代码能够实现动态链接,比如:invokedynamic指令。
在Java源文件被编译到字节码文件中时,所有的变量和方法引用都作为符号引用保存在class文件的常量池里。比如:描述一个方法调用了另外的其他方法时,就是通过常量池中指向方法的符号引用来表示的,那么动态链接的作用就是为了将这些符号引用转化为调用方法的直接引用。
为什么要有运行时常量池?常量池的作用就是为了提供一些符号和常量,便于指令的识别。如果没有常量池,那么在不同的方法中的栈帧中都需要去存储大量的信息内容,而有了常量池,我们需要使用某个值时,只需按照引用去堆内存中查找即可。
方法返回地址(Return Address)
每一个栈帧中都有一个方法返回地址,其存放调用该方法的PC寄存器的值,简单理解,就是在A方法体中嵌套调用了B方法,当B方法执行完毕时返回时,会先将调用者的PC寄存器的值返回给执行引擎,而PC寄存器中存储的地址值就是A方法要接着执行的代码的地址值。
一个方法的结束,有两种方式:1,正常结束 2,出现未处理的异常,非正常退出。 无论通过哪种方式退出,在方法退出后都会返回到该方法被调用的位置。方法正常退出时,调用者的PC寄存器的值作为返回地址,即调用该方法的指令的下一条指令地址。而通过异常退出时,返回地址是要通过异常表来确定,栈帧中一般不会保存这部分信息。
在字节码指令中,返回指令包含ireturn(当返回值是boolean,byte,char,short和int类型),lreturn(long),freturn(float),dreturn(double)以及areturn(引用类型),另外还有一个return指令供声明为void的方法,实例初始化方法,类和接口的初始化方法使用。
3.3 本地方法栈
本地方法栈(Native Method Stacks)与虚拟机栈所发挥的作用是非常相似的,其区别不过是虚拟机栈为虚拟机执行Java 方法(也就是字节码)服务,而本地方法栈则是为虚拟机使用到的Native 方法服务。虚拟机规范中对本地方法栈中的方法使用的语言、使用方式与数据结构并没有强制规定,因此具体的虚拟机可以自由实现它。甚至有的虚拟机(譬如Sun HotSpot 虚拟机)直接就把本地方法栈和虚拟机栈合二为一。与虚拟机栈一样,本地方法栈区域也会抛出StackOverflowError 和OutOfMemoryError异常。
3.4堆内存
对于大多数应用来说,Java 堆(Java Heap)是Java 虚拟机所管理的内存中最大的一块。Java 堆是被所有线程共享的一块内存区域,在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例,几乎所有的对象实例都在这里分配内存。这一点在Java 虚拟机规范中的描述是:所有的对象实例以及数组都要在堆上分配,但是随着JIT 编译器的发展与逃逸分析技术的逐渐成熟,栈上分配、标量替换优化技术将会导致一些微妙的变化发生,所有的对象都分配在堆上也渐渐变得不是那么“绝对”了。Java 堆是垃圾收集器管理的主要区域,因此很多时候也被称做“GC 堆”(GarbageCollected Heap)。如果从内存回收的角度看,由于现在收集器基本都是采用的分代收集算法,所以Java 堆中可以分为:新生代和老年代;再细致一点的可以分为Eden 空间、From Survivor 空间、To Survivor 空间等。如果从内存分配的角度看,线程共享的Java 堆中可能划分出多个线程私有的分配缓冲区(Thread LocalAllocation Buffer,TLAB)。不过,无论如何划分,都与存放内容无关,无论哪个区域,存储的都仍然是对象实例,进一步划分的目的是为了更好地回收内存,或者更快地分配内存。根据Java 虚拟机规范的规定,Java 堆可以处于物理上不连续的内存空间中,只要逻辑上是连续的即可,就像我们的磁盘空间一样。在实现时,既可以实现成固定大小的,也可以是可扩展的,不过当前主流的虚拟机都是按照可扩展来实现的(通过-Xmx和-Xms 控制)。如果在堆中没有内存完成实例分配,并且堆也无法再扩展时,将会抛出OutOfMemoryError 异常。
3.5方法区
方法区(Method Area)与Java 堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。虽然Java 虚拟机规范把方法区描述为堆的一个逻辑部分,但是它却有一个别名叫做Non-Heap(非堆),目的应该是与Java 堆区分开来。对于习惯在HotSpot 虚拟机上开发和部署程序的开发者来说,很多人愿意把方法区称为“永久代”(Permanent Generation),本质上两者并不等价,仅仅是因为HotSpot 虚拟机的设计团队选择把GC 分代收集扩展至方法区,或者说使用永久代来实现方法区而已。对于其他虚拟机(如BEA JRockit、IBM J9 等)来说是不存在永久代(方法区)的概念的。即使是HotSpot 虚拟机本身,根据官方发布的路线图信息,现在也有放弃永久代并“搬家”至Native Memory 来实现方法区的规划了。Java 虚拟机规范对这个区域的限制非常宽松,除了和Java 堆一样不需要连续的内存和可以选择固定大小或者可扩展外,还可以选择不实现垃圾收集。相对而言,垃圾收集行为在这个区域是比较少出现的,但并非数据进入了方法区就如永久代的名字一样“永久”存在了。这个区域的内存回收目标主要是针对常量池的回收和对类型的卸载,一般来说这个区域的回收“成绩”比较难以令人满意,尤其是类型的卸载,条件相当苛刻,但是这部分区域的回收确实是有必要的。在Sun 公司的BUG 列表中,曾出现过的若干个严重的BUG 就是由于低版本的HotSpot 虚拟机对此区域未完全回收而导致内存泄漏。
根据Java 虚拟机规范的规定,当方法区无法满足内存分配需求时,将抛出OutOfMemoryError 异常。
3.5.1运行时常量池
运行时常量池(Runtime Constant Pool)是方法区的一部分。Class 文件中除了有类的版本、字段、方法、接口等描述等信息外,还有一项信息是常量池(Constant PoolTable),用于存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。Java 虚拟机对Class 文件的每一部分(自然也包括常量池)的格式都有严格的规定,每一个字节用于存储哪种数据都必须符合规范上的要求,这样才会被虚拟机认可、装载和执行。但对于运行时常量池,Java 虚拟机规范没有做任何细节的要求,不同的提供商实现的虚拟机可以按照自己的需要来实现这个内存区域。不过,一般来说,除了保存Class 文件中描述的符号引用外,还会把翻译出来的直接引用也存储在运行时常量池中①。运行时常量池相对于Class 文件常量池的另外一个重要特征是具备动态性,Java 语言并不要求常量一定只能在编译期产生,也就是并非预置入Class 文件中常量池的内容才能进入方法区运行时常量池,运行期间也可能将新的常量放入池中,这种特性被开发人员利用得比较多的便是String 类的intern() 方法。既然运行时常量池是方法区的一部分,自然会受到方法区内存的限制,当常量池无法再申请到内存时会抛出OutOfMemoryError 异常。
4,new对象
既然已经对上面的知识有了初步的了解,那就在通过创建一个对象深入理解下。
在代码执行的过程中,当虚拟机遇到一条new指令时,首先将会检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已经被加载,解析和初始化过。如果没有,那就必须执行相应的类加载过程。当这个类在被jvm的类加载器加载的时候,它会把这个类的信息、常量、静态变量、编译器编译后的代码等数据存放到方法区里面去。还有静态变量也会存进去。常量存到常量池里面去。也就是说。方法区就像一个图书馆,把那些加载好的东西都存起来,等着备用。然后这个类被new的时候,首先会在方法区中找这个类,找到一模一样的,然后在堆里面新建一个,然后先对一些变量初始化。基本变量赋值,对象赋值null。该对象的方法,会指向方法区中这个对象方法的地址。也就是说,多个相同的对象在堆中只是保存了方法的地址,而没有把方法再复制一遍。
最后是一个对象被赋值的时候,注意刚才只是new A();而不是A a = new A();现在才是。当这一步的时候,会在java栈中建一个名字叫a的东西,然后把它的地址写成A在堆中的地址。
建立对象是为了使用对象,我们的Java程序需要通过栈上的reference数据来操作堆上的具体数据,由于reference类型在Java虚拟机规范里面只规定了一个指向对象的引用,并没有定义这个引用应该通过哪种方式去定位,以及访问到Java堆中的对象的具体位置,因此不同虚拟机实现的对象访问方式会有所不同,主流的访问方式有两种:使用句柄池和直接使用指针。
使用句柄的话,那么Java堆中将会划出一块内存来作为句柄池,reference中存储的就是对象的句柄地址。通过句柄池访问的方式如下:
如果使用直接指针访问,那么Java堆内存就必须考虑如何放置访问类型数据的相关信息,而reference中存储的直接就是对象地址。通过直接指针访问的方式如下:
这两种对象的访问方式各有优势,使用句柄访问方式的最大好处就是reference中存放的是稳定的句柄地址,在对象呗移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄中的实例数据指针,而reference本身不需要修改。使用直接指针访问方式的最大好处是速度快,它节省了一次指针定位的时间开销。目前Java默认使用的HotSpot虚拟机采用的便是是第二种方式进行对象访问的。