JAVA虚拟机:
HotSpot结构图
简略图:
详细图:
Java编译器输入的指令流基本上是一种基于栈的指令集架构,另外一种指令集架构则是基于寄存器的指令集架构。
具体来说:这两种架构之间的区别:
基于栈式架构的特点
基于寄存器架构的特点
总结:
**由于跨平台性的设计,Java的指令都是根据栈来设计的。**不同平台cPU架构不同,所以不能设计为基于寄存器的。优点是跨平台,指令集小,编译器容易实现,缺点是性能下降,实现同样的功能需要更多的指令。
基于栈:跨平台性、指令集小、指令多;执行性能比寄存器差
虚拟机的启动
虚拟机的执行
虚拟机的退出
加载:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Tf0ngr6-1637148184497)(jvm-上篇-内存与垃圾回收.assets/image-20211101201749364.png)]
初始化:
在Loading阶段使用了不同的类加载器来加载字节码文件
JVM支持两种类型的类加载器,分别为引导类加载器(BootstrapclassLoader)和自定义类加载器(User-Defined ClassLoader)。
从概念上来讲,自定义类加载器一般指的是程序中由开发人员自定义的一类类加载器,但是Java虚拟机规范却没有这么定义,而是将所有派生于抽象类classLoader的类加载器都划分为自定义类加载器。
无论类加载器的类型如何划分,在程序中我们最常见的类加载器始终只有3个,如下所示:
下面是一段关于类加载器的测试:
说明了
public class ClassLoaderTest {
public static void main(String[] args) {
ClassLoader systemClassLoader = ClassLoader.getSystemClassLoader();
System.out.println(systemClassLoader);
//jdk.internal.loader.ClassLoaders$AppClassLoader@3fee733d
ClassLoader extentClassLoader = systemClassLoader.getParent();
System.out.println(extentClassLoader);
//jdk.internal.loader.ClassLoaders$PlatformClassLoader@10f87f48
ClassLoader bootstrapClassLoader = extentClassLoader.getParent();
System.out.println(bootstrapClassLoader);
//null
ClassLoader curClassLoader = ClassLoaderTest.class.getClassLoader();
System.out.println(curClassLoader);
//jdk.internal.loader.ClassLoaders$AppClassLoader@3fee733d
ClassLoader stringClassLoader = String.class.getClassLoader();
System.out.println(stringClassLoader);
//null
}
}
虚拟机自带的加载器
启动类加载器(引导类加载器,Bootstrap classLoader)
扩展类加载器(Extension classLoader)
应用程序类加载器(系统类加载器,AppclassLoader)
用户自定义类加载器实现步骤:
ClassLoader
ClassLoader类,它是一个抽象类,其后所有的类加载器都继承自ClassLoader (不包括启动类加载器)
常用方法:
获取方法:
介绍:
Java虚拟机对class文件采用的是按需加载的方式,也就是说当需要使用该类时才会将它的class文件加载到内存生成class对象。而且加载某个类的class文件时,Java虚拟机采用的是双亲委派模式,即把请求交由父类处理,它是一种任务委派模式。
工作原理:
如果一个类加载器收到了类加载请求,它并不会自己先去加载,而是把这个请求委托给父类的加载器去执行;
如果父类加载器还存在其父类加载器,则进一步向上委托,依次递归,请求最终将到达顶层的启动类加载器;
如果父类加载器可以完成类加载任务,就成功返回,倘若父类加载器无法完成此加载任务,子加载器才会尝试自己去加载,这就是双亲委派模式。
优势:
沙箱安全机制:
我们自定义string类,但是在加载自定义string类的时候会率先使用引导类加载器加载,而引导类加载器在加载的过程中会先加载jdk自带的文件(rt.jar包中java\lang\string.class),报错信息说没有main方法,就是因为加载的是rt.jar包中的string类。这样可以保证对java核心源代码的保护,这就是沙箱安全机制。
判断对象是否是同一类
相同必须同时满足:
对类加载器的引用
如果一个类是由用户类加载器加载的,那么JVM会将该加载器的一个引用作为类型信息放到方法区中。
类的主动使用和被动使用
内存是非常重要的系统资源,是硬盘和cPU的中间仓库及桥梁,承载着操作系统和应用程序的实时运行。JVM内存布局规定了Java在运行过程中内存申请、分配、管理的策略,保证了JVM的高效稳定运行。
不同的JVM对于内存的划分方式和管理机制存在着部分差异。
经典运行时数据区结构:
详细结构:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ULEMV6Um-1637148184510)(https://gitee.com/auroranb/cloudimage/raw/master/img/202111171916321.png)]
其中堆区和方法区是随着JVM创建和销毁,而本地方法区、程序计数器、虚拟机栈与线程一一对应。
进程:Heap、Method Area(永久代/元空间)
线程:JVM Stacks、Navtive Method Stacks、 Program Counter Register
JVM中的程序计数寄存器(Program counter Register)中, Register 的命名源于CPU的寄存器,寄存器存储指令相关的现场信息。CPU只有把数据装载到寄存器才能够运行。
这里,并非是广义上所指的物理寄存器,或许将其翻译为ec计数器(或指令计数器)会更加贴切(也称为程序钩子),并且也不容易引起一些不必要的误会。JVM中的PC寄存器是对物理PC寄存器的一种抽象模拟。
作用:
PC寄存器用来存储指向下一条指令的地址,也即将要执行的指令代码。由执行引擎读取下一条指令。
程序计数器实际就是存储了程序的运行位置,为了让CPU在切换线程后再次执行线程的指令是恢复到正确的位置
因为CPU需要不停的切换各个线程,这时候切换回来以后,就得知道接着从哪开始继续执行。JVM的字节码解释器就需要通过改变PC寄存器的值来明确下一条应该执行什么样的字节码指令。
我们都知道所谓的多线程在一个特定的时间段内只会执行其中某一个线程的方法,CPU会不停地做任务切换,这样必然导致经常中断或恢复,如何保证分毫无差呢?为了能够准确地记录各个线程正在执行的当前字节码指令地址,最好的办法自然是为每一个线程都分配一个pc寄存器,这样一来各个线程之间便可以进行独立计算,从而不会出现相互千扰的情况。
背景:
由于跨平台性的设计,Java的指令都是根据栈来设计的。不同平台CPU架构不同,所以不能设计为基于寄存器的。
优点是跨平台,指令集小,编译器容易实现,缺点是性能下降,实现同样的功能需要更多的指令。
栈和堆:
栈是运行时的单位,而堆是存储的单位。
即:栈解决程序的运行问题,即程序如何执行,或者说如何处理数据。堆解决的是数据存储的问题,即数据怎么放、放在哪儿。
栈的基本内容:
java虚拟机栈是什么
Java虚拟机栈(Java virtual Machine stack),早期也叫Java栈。每个线程在创建时都会创建一个虚拟机栈,其内部保存一个个的栈帧(stack Frame),对应着一次次的Java方法调用。
生命周期
与线程的生命周期一直
作用
主管Java程序的运行,它保存方法的局部变量、部分结果,并参与方法的调用和返回。
优点
栈中可能出现的异常
Java虚拟机规范允许Java栈的大小是动态的或者是固定不的。
如何设置虚拟机栈的
通过 -Xss 参数设置
每个线程都有自己的栈,栈中的数据都是以栈帧(stack Frame)的格式存在。
在这个线程上正在执行的每个方法都各自对应一个栈帧(stack Frame) 。
栈帧是一个内存区块,是一个数据集,维系着方法执行过程中的各种数据信息。
栈的运行原理
栈帧的内部有如下结构:
简介:
局部变量表是影响栈帧大小的主要因素:
局部变量表存储了:起始的行号,作用的长度,调用的索引(第几个slot),变量名,类型描述的信息
局部变量表的基本单位(Slot):
slot是可以被重复利用的,上图b在作用域消失后,slot空出,这时声明c会直接使用b空出的位置
赋值:
与类变量表中的变量不同,局部变量表的变量需要手动赋值,否则使用时会报错。
类变量表中的变量会经历两次赋值:在类加载子系统的Linking阶段下的preparation阶段默认赋值,在initialization阶段手动赋值(及静态代码块)
补充:
理论知识:
每一个独立的栈帧中除了包含局部变量表以外,还包含一个后进先出(Last-In-First-out)的操作数栈,也可以称之为表达式栈(Expression stack)
操作数栈,在方法执行过程中,根据字节码指令,往栈中写入数据或提取数据,即入栈(push)/出栈(pop)
操作数栈,主要用于保存计算过程的中间结果,同时作为计算过程中变量临时的存储空间。
操作数栈就是JVM执行引繁的一个工作区,当一个方法刚开始执行的时候一个新的栈帧也会随之被创建出来,这个方法的操作数栈是空的。
每一个操作数栈都会拥有一个明确的栈深度用于存储数值,其所需的最大深度在编译期就定叉好了,保存在方法的code属性中,火max stack的值。
栈中的任何一个元素都是可以任意的Java数据类型。
操作数栈并非采用访问索引的方式来进行数据访问的,面是只能通过标准的入栈(push)和出栈(pop)操作来完成一次数据访问。
如果被调用的方法带有返回值的话,其返回值将会被压入当前栈帧的操作数栈中、并更新C寄存器中下一条需要执行的字节码指令。
操作数栈中元素的数据类型必须与字节码指令的序列严格匹配,这由编译器在编译器期间进行验证,同时在类加载过程中的类检验阶段的数据流分析阶段要再次验证。
另外,我们说Java虚拟机的解释引擎是基于栈的执行引擎,其中的栈指的就是操作数栈。
栈顶缓存技术:
前面提过,基于栈式架构的虚拟机所使用的零地址指令更加紧凑,但完成一项操作的时候必然需要使用更多的入栈和出栈指令,这同时也就意味着将需要更多的指令分派(instruction dispatch)次数和内存读/写次数。
由于操作数是存储在内存中的,因此频繁地执行内存读/写操作必然会影响执行速度。为了解决这个问题,HotSpot JVM的设计者们提出了栈顶缓存(ToS,Top-of-Stack Cashing)技术,将栈顶元素全部缓存在物理cpu的寄存器中,以此降低对内存的读/写次数,提升执行引擎的执行效率。
每一个栈帧内部都包含一个指向运行时常量池中该栈帧所属方法的引用。包含这个引用的目的就是为了支持当前方法的代码能够实现动态链接( Dynamic Linking)。比如: invokedynamic指令
在Java源文件被编译到字节码文件中时,所有的变量和方法引用都作为符号引用(symbolic Reference)保存在class文件的常量池里。比如:描述一个方法调用了另外的其他方法时,就是通过常量池中指向方法的符号引用来表示的,那么动态链接的作用就是为了将这些符号引用转换为调用方法的直接引用。
在JVM中,将符号引用转换为调用方法的直接引用与方法的旗定机制相关。
方法的引用过程
静态链接:
当一个字节码文件被装载进JVM内部时,如果被调用的目标方法在编译期可知且运行期保持不变时。这种情况下将调用方法的符号引用转换为直接引用的过程称之为静态链接。
动态链接:
如果被调用的方法在编译期无法被确定下来。也就是说,只能够在程序运行期将调用方法的符号引用转换为直接引用,由于这种引用转换过程具备动态性,因此也就被称之为动态链接。
应用过程对应的绑定机制
对应的方法的绑定机制为:早期绑定(Early Binding)和晚期绑定(Late Binding)。绑定是一个字段、方法或者类在符号引用被替换为直接引用的过程,这仅仅发生一次。
早期绑定:
早期绑定就是指被调用的目标方法如果在编译期可知,且运行期保持不变时,即可将这个方法与所属的类型进行绑定,这样一来,由于明确了被调用的目标方法究竟是哪一个,因此也就可以使用静态链接的方式将符号引用转换为直接引用。
晚期绑定:
如果**被调用的方法在编译期无法被确定下来,只能够在程序运行期根据实际的类型绑定相关的方法,**这种绑定方式也就被称之为晚期绑定。
面向对象一般都具有早期绑定和晚期绑定
随着高级语言的横空出世,类似于Java一样的基于而向对象的编程语言如今越来越多,尽管这类编程语言在语法风格上存在一定的差别。但是它们彼此之间始终保持着一个共性,那就是都支持封装、继承和多态等而向对象特性,既然这一类的编程语言具备多态特性,那么自然也就几备早期绑定和晚期绑定两种绑定方式。
Java中任何一个普通的方法其实都具备虚函数的特征,它们相当于c++语言中的虚函数(C++中则需要使用关键字virtual来显式定义)。如果在Java程序中不希望某个方法拥有虚函数的特征时,则可以使用关键字final来标记这个方法。
虚方法与非虚方法
非虚方法:
虚拟机中提供了以下几条方法调用指令
普通调用指令:
动态调用指令:
前四条指令固化在虚拟机内部,方法的调用执行不可人为千预,而invokedynamic指令则支持由用户确定方法版本。其中invokestatic指令和invokespecial指令调用的方法称为非虚方法,其余的( final修饰的除外)称为虚方法。
invokedynamic指令
java7新增了invokedynamic指令,这是为了实现【动态类型语言】支持而做的一种改进
java8的Lambda表达式的出现使该指令在java中有了直接的生产
JAVA中方法重写的本质
Java 语言中方法重写的本质:
1.找到操作数栈顶的第一个元素所执行的对象的实际类型,记作 c。
2.如果在过程结束;如果不通类型c中找到与常量中的描述符合简单名称都相符的方法则进行访问权限校验,如果通过则返回这个方法的直接引用,查找过,则返回java. lang.IllegalAccessError异常。
3.否则,按照继承关系从下往上依次对c的各个父类进行第⒉步的搜索和验证过程。4.如果始终没有找到合适的方法,则抛出java.lang.AbstractMethodError异常。
IllegalAccessError介绍:
程序试图访问或修改一个属性或调用一个方法,这个属性或方法,你没有权限访问。一般的,这个会引起编译器异常。这个错误如果发生在运行时,就说明一个类发生了不兼容的改变。|
虚方法表
在面向对象的编程中,会很频繁的使用到动态分派,如果在每次动态分派的过程中都要重新在类的方法元数据中搜索合适的目标的话就可能影响到执行效率。因此,为了提高性能,JVM采用在类的方法区建立一个虚方法表**(virtual method table)(非虚方法不会出现在表中)来实现。使用索引表来代替查找。**
每个类中都有一个虚方法表,表中存放着各个方法的实际入口
虚方法表会在类加载的链接阶段被创建并开始初始化,类的变量初始值准备完成之后,JVM会把该类的方法表也初始化完毕。
本质上,方法的退出就是当前栈帧出栈的过程。此时,需要恢复上层方法的局部变量表、操作数栈、将返回值压入调用者栈帧的操作数栈、设置PC寄存器值等,让调用者方法继续执行下去。
正常完成出口和异常完成出口的区别在于:通过异常完成出口退出的不会给他的上层调用者产生任何的返回值。
本地方法接口和本地方法库都不在运行时数据区中
当java想要与操作系统打交道时需要用到c语言的一些方法,本地方法接口就对应着本定方法库中c语言的方法,java程序能通过调用本地方法接口来调用库函数
当某个线程调用一个本地方法时,它就进入了一个全新的并且不再受虚拟机限制的世界。它和虚拟机拥有同样的权限。
本地方法可以通过本地方法接口来访问虚拟机内部的运行时数据区。
它甚至可以直接使用本地处理器中的寄存器
直接从本地内存的堆中分配任意数量的内存。
**并不是所有的JVM都支持本地方法。因为Java虚拟机规范并没有明确要求本地方法栈的使用语言、具体实现方式、数据结构等。**如果JVM产品不打算支持native方法,也可以无需实现本地方法栈。
在Hotspot JVM中,直接将本地方法栈和虚拟机栈合二为一。
一个JVM实例只存在一个堆内存,堆也是Java内存管理的核心区域。Java堆区在JVM启动的时候即被创建,其空间大小也就确定了。是JVM管理的最大一块内存空间。
堆内存的大小是可以调节的。
《Java虚拟机规范》规定,堆可以处于物理上不连续的内存空间中,但在逻辑上它应该被视为连续的。
所有的线程共享Java堆,在这里还可以划分线程私有的缓冲区( Thread Local Allocation Buffer,TLAB)。
《Java虚拟机规范》中对Java堆的描述是:所有的对象实例以及数组都应当在运行时分配在堆上。(The heap is the run-time data area fromwhich memory for all class instances and arrays is allocated )>
数组和对象可能永远不会存储在栈上,因为栈帧中保存引用,这个引用指向对象或者数组在堆中的位置。
在方法结束后,堆中的对象不会马上被移除,仅仅在垃圾收集的时候才会被移除。
堆,是GC ( Garbage collection,垃圾收集器)执行垃圾回收的重点区域。
堆的细分结构
JDK8将永久区替换为元空间
堆的大小实际上是新生区和养老区大小的和
堆空间大小
在生产环境中,通常让最大堆空间和初始堆空间一致,减少内存扩缩容操作带来的效率上的影响
如果想要查看堆区的信息,在运行程序时增加一个 -XX:+PrintGCDetails
参数
其中分别显示的是年轻代、老年代、(永久代/元空间)
OOM举例
当堆中没有内存完成实例分配,并且堆也无法再扩展是,Java虚拟机就会跑出OutOfMemoryError(OOM)
如何配置新生代和老年代的内存占比:-XX:NewRatio=2
表示新生代占1,老年代占2,新生代占堆的1/3
-XX :survivorRatio
调整这个空间比例。为新对象分配内存是一件非常严谨和复杂的任务,JVM的设计者们不仅需要考虑内存如何分配、在哪里分配等问题,并且由于内存分配算法与内存回收算法密切相关,所以还需要考虑cc执行完内存回收后是否会在内存空间中产生内存碎片。
总结:
eden放不下就直接放到老年代
survivor放不下也放老年代
老年代放不下就OOM
三种GC的分类:
JVM在进行GC时,并非每次都对上面三个内存区域(新生代、老年代;方法区)一起回收的,大部分时候回收的都是指新生代。
针对HotSpot VM的实现,它里面的GC按照回收区域又分为两大种类型:一种是部分收集(Partial GC),一种是整堆收集(Full GC)
年轻代GC(Minor GC)触发机制:
老年代GC (Major GC/Full GC)触发机制:
Fu1l GC触发机制:
触发Fu1l GC执行的情况有如下几种:
说明: full gc是开发或调优中尽量要避免的。这样暂时时间会短一些
为什么要对堆空间进行分代?
其实不分代完全可以,分代的唯一理由就是优化cc性能。如果没有分代,那所有的对象都在一块,就如同把一个学校的人都关在一个教室。GC的时候要找到哪些对象没用,这样就会对堆的所有区域进行扫描。而很多对象都是朝生夕死的,如果分代的话,把新创建的对象放到某一地方,当GC 的时候先把这块存储“朝生夕死”对象的区域进行回收,这样就会腾出很大的空间出来。
针对不同年龄段的对象分配原则如下所示:
为什要有TLAB?
什么是TLAB?
TLAB说明:
TLAB分配过程
-XX:+PrintFlagsInitial :查看所有的参数的默认初始值
-XX:+PrintFlagsFinal :查看所有的参数的最终值(可能会存在修改,不再是初始值)
具体查看某个参数的指令:
jps:查看当前运行中的进程
jinfo -fLag survivorRatio进程id
-Xms:初始堆空间内存(默认为物理内存的1/64)
-Xmx:最大堆空间内存(默认为物理内存的1/4)
-Xmn:设置新生代的大小。(初始值及最大值)
-XX: NewRatio:配置新生代与老年代在堆结构的占比
-XX :SurvivorRatio:设置新生代中Eden和so/s1空间的比例
-XX: MaxTenuringThreshold:设置新生代垃圾的最大年龄
-XX:+PrintGCDetails:输出详细的GC处理日志
一XX:HandlePromotionFailure:是否设置空间分配担保
HandlePromotionFailure解释:
在发生Minor GC之前,虚拟机会检查老年代最大可用的连续空间是否大于新生代所有对象的总空间。
如果大于,则此次Minor GC是安全的
如果小于,则虚拟机会查看-xx:HandlePromotionFailure设置值是否允许
如果HandlePromotionFailure=true,那么会继续检查老年代最大可用连续空间是否大于历次晋升到老年代的对象的平均大小。
如果大于,则尝试进行一次Minor GC,但这次Minor GC依然是有风险的;
如果小于,则改为进行一次Full GC。
如果HandlePromotionFailure=false,则改为进行一次Full GC。
在JDK6 Update24之后(JDK7) , HandlePromotionFailure参数不会再影响到虚拟机的空间分配担保策略,观察openJDK中的源码变化,虽然源码中还定义了
HandlePromotionFailure参数,但是在代码中已经不会再使用它。JDK6 Update24之后的规则变为只要老年代的连续空间大于新生代对象总大小或者历次晋升的平均大小就会进行Minor GC,否则将进行Full GC。
相当于该参数一直是true
堆不是对象分配的唯一选择
在《深入理解Java虚拟机》中关于Java堆内存有这样一段描述:
随着JIT编译期的发展与逃逸分析技术逐渐成熟,栈上分配、标量替换优化技术将会导致一些微妙的变化,所有的对象都分配到堆上也渐渐变得不那么“绝对”了
在Java虚拟机中,对象是在Java堆中分配内存的,这是一个普遍的常识。但是,有一种特殊情况,那就是**如果经过逃逸分析(Escape Analysis)后发现一个对象没有逃逸出方法的话,那么就可能被优化成栈上分配。**这样就无需在堆上分配内存,也无须进行垃圾回收了。这也是最常见的堆外存储技术。
此外,前面提到的基于openJDK深度定制的TaoBaoVM,其中创新的GCIH (GC invisible heap)技术实现off-heap,将生命周期较长的Java对象从heap中移至heap外,并且GC不能管理GcIH内部的Java对象,以此达到降低cc的回收频率和提升GC的回收效率的目的。
逃逸分析概述:
如何将堆上的对象分配到栈,需要使用逃逸分析手段。
这是一种可以有效减少Java程序中同步负载和内存堆分配压力的跨函数全局数据流分析算法。
通过逃逸分析,Java Hotspot编译器能够分析出一个新的对象的引用的使用范围从而决定是否要将这个对象分配到堆上。
逃逸分析的基本行为就是分析对象动态作用域:
参数设置:
在JDK 6u23版本之后,HotSpot中默认就已经开启了逃逸分析。.如果使用的是较早的版本,开发人员则可以通过:
使用逃逸分析,编译器可以对代码做如下优化:
一、栈上分配。
将堆分配转化为栈分配。如果一个对象在子程序中被分配,要使指向该对象的指针永远不会逃逸,对象可能是栈分配的候选,而不是堆分配。
二、同步省略。
如果一个对象被发现只能从一个线程被访问到,那么对于这个对象的操作可以不考虑同步。
三、分离对象或标量替换。
有的对象可能不需要作为一个连续的内存结构存在也可以被访问到,那么对象的部分(或全部)可以不存储在内存,而是存储在CPU寄存器中。
栈上分配
尽量在方法内创建对象,并保证对象不会在方法外被使用
同步省略
如果一个方法内创建了一个对象被加锁了,且这个对象没有逃逸,不会被其他线程访问,那么JIT编译阶段就会自动把锁去了提升性能
分离对象或标量替换
如果对象能被分解成标量,且没有逃逸,那么这个对象在运行时会被分解成若干个标量(JAVA中指原始数据类型)
标量替换参数设置∶
参数-xx:+EliminateAllocations:开启了标量替换(默认打开),允许将对象打散分配在栈上。
类型在方法区中
方法中的变量在栈的局部变量表里
对象实例在堆中
基本理解
HotSpot中的方法区
在jdk7及以前,习惯上把方法区,称为永久代。jdk8开始,使用元空间取代了永久代。本质上,方法区和永久代并不等价。仅是对hotspot而言的。《Java虚拟机规范》对如何实现方法区,不做统一要求。
例如:BEA JRockit/ IBM J9中不存在永久代的概念。
现在来看,当年使用永久代,不是好的idea。导致Java程序更容易OOM(超过-xx: MaxPermsize上限)
jdk7及以前:
jdk8及以后:
方法区的存放了什么内容
《深入理解Java虚拟机》书中对方法区(Method Area)存储内容描述如下:
它用于存储已被虚拟机加载的类型信息、常量、静态变量、即时编译器编译后的代码缓存等。
类型信息
对每个加载的类型(类class、接口interface、枚举enum、注解annotation),JVM必须在方法区中存储以下类型信息:
域(Field)信息
方法(Method)信息
JVM必须保存所有方法的以下信息,同域信息一样包括声明顺序:·
补充说明:全局常量: static final
被声明为final的类变量的处理方法则不同,每个全局常量在编译的时候就会被分配了。
常量池
常量池是字节码文件的一部分
一个有效的字节码文件中除了包含类的版本信息、字段、方法以及接口等描述信息外,还包含一项信息那就是常量池表(Constant Pool Table),包括各种字面量和对类型、域和方法的符号引用。
为什么需要常量池?
一个java源文件中的类、接口,编译后产生一个字节码文件。而Java中的字节码需要数据支持,通常这种数据会很大以至于不能直接存到字节码里,换另一种方式,可以存到常量池,这个字节码包含了指向常量池的引用。在动态链接的时候会用到运行时常量池,之前有介绍。
比如:如下的代码:
虽然只有194字节,但是里面却使用了string、System、Printstream及Object等结构。这里代码量其实已经很小了。如果代码多,引用到的结构会更多!这里就需要常量池了!
常量池中存放了什么信息?
小结:
常量池,可以看做是一张表,虚拟机指令根据这张常量表找到要执行的类名、方法名、参数类型、字面量等类型。
运行时常量池
1.首先明确:只有Hotspot才有永久代。
BEA JRockit、IBMJ9等来说,是不存在永久代的概念的。原则上如何实现方法区属于虚拟机实现细节,不受《Java虚拟机规范》管束,并不要求统一。
2.Hotspot中方法区的变化:
版本 | 描述 |
---|---|
<=jdk1.6 | 有永久代(permanent generation),静态变量存放在永久代上 |
jdk1.7 | 有永久代,但已经逐步“去永久代”,字符串常量池、静态变量移除,保存在堆中 |
>=jdk1.8 | 无永久代,类型信息、字段、方法、常量保存在本地内存的元空间,但字符串常量池、静态变量仍在堆 |
这里的静态变量指的是变量名
JDK6
JDK7
JDK8
为什么要把永久代替换为元空间
为永久代设置空间大小是很难确定的。
在某些场景下,如果动态加载类过多,容易产生Perm区的oOM。比如某个实际web工程中,因为功能点比较多,在运行过程中,要不断动态加载很多类,经常出现致命错误。而元空间和永久代之间最大的区别在于:元空间并不在虚拟机中,而是使用本地内存。因此,默认情况下,元空间的大小仅受本地内存限制。
对永久代进行调优是很困难的。
为什么把StringTable放到堆空间
jdk7中将stringTable放到了堆空间中。因为永久代的回收效率很低,在full gc的时候才会触发。而full gc是老年代的空间不足、永久代不足时才会触发。这就导致stringTable回收效率不高。而我们开发中会有大量的字符串被创建,回收效率低,导致永久代内存不足。放到堆里,能及时回收内存。
一般来说这个区域的回收效果比较难令人满意,尤其是类型的卸载,条件相当苛刻。但是这部分区域的回收有时又确实是必要的。以前sun公司的Bug列表中,曾出现过的若干个严重的Bug就是由于低版本的HotSpot虚拟机对此区域未完全回收而导致内存泄漏。
方法区的垃圾收集主要回收两部分内容:常量池中废弃的常量和不再使用的类型。
常量的回收
先来说说方法区内常量池之中主要存放的两大类常量:字面量和符号引用。字面量比较接近Java语言层次的常量概念,如文本字符串、被声明为final的常量值等。而符号引用则属于编译原理方面的概念,包括下面三类常量:
1、类和接口的全限定名
2、字段的名称和描述符
3、方法的名称和描述符
HotSpot虚拟机对常量池的回收策略是很明确的,只要常量池中的常量没有被任何地方引用,就可以被回收。
回收废弃常量与回收Java堆中的对象非常类似。
类的回收
判定一个常量是否“废弃”还是相对简单,而要判定一个类型是否属于“不再被使用的类”的条件就比较苛刻了。需要同时满足下面三个条件:
Java虚拟机被允许对满足上述三个条件的无用类进行回收,这里说的仅仅是“被允许”,而并不是和对象一样,没有引用了就必然会回收。关于是否要对类型进行回收,HotSpot虚拟机提供了-Xnoclassgc参数进行控制,还可以使用-verbose:class以及-XX:+Traceclass-Loading、-xX:+TraceclassUnLoading查看类加载和卸载信息
在大量使用反射、动态代理、CGLib等字节码框架,动态生成JSP以及osGi这类频繁自定义类加载器的场景中,通常都需要Java虚拟机具备类型卸载的能力,以保证不会对方法区造成过大的内存压力。
常见面试题:
对象的访问定位一般分为两种方式:
不是虚拟机运行时数据区的一部分,也不是《Java虚拟机规范》中定义的内存区域。
直接内存是在Java堆外的、直接向系统申请的内存区间。
来源于NIo,通过存在堆中的DirectByteBuffer操作Native内存通常,访问直接内存的速度会优于Java堆。即读写性能高。
因此出于性能考虑,读写频繁的场合可能会考虑使用直接内存。
Java的NIo库允许Java程序使用直接内存,用于数据缓冲区
直接内存也可能导致outofMemoryError异常
由于直接内存在Java堆外,因此它的大小不会直接受限于-Xmx指定的最大堆大小,但是系统内存是有限的,Java堆和直接内存的总和依然受限于操作系统能给出的最大内存。
直接内存可以通过MaxDirectMemorySize设置,如果不指定则默认和堆的最大内存 -Xmx 一致
JVM的主要任务是负责装载字节码到其内部,但字节码并不能够直接运行在操作系统之上,因为字节码指令并非等价于本地机器指令,它内部包含的仅仅只是一些能够被JVM所识别的字节码指令、符号表,以及其他辅助信息。
那么,如果想要让一个Java程序运行起来,执行引擎(Execution Engine)的任务就是将字节码指令解释/编译为对应平台上的本地机器指令才可以。简单来说,JVM中的执行引擎充当了将高级语言翻译为机器语言的译者。
大概工作过程
执行引擎在执行的过程中究竟需要执行什么样的字节码指令完全依赖于PC寄存器。
每当执行完一项指令操作后,PC寄存器就会更新下一条需要被执行的指令地址。
当然方法在执行的过程中,执行引擎有可能会通过存储在局部变量表中的对象引用准确定位到存储在Java堆区中的对象实例信息,以及通过对象头中的元数据指针定位到目标对象的类型信息。
程序源码转换为物理机能执行的代码或虚拟机能执行的指令集的一般过程
JVM执行引擎执行字节码的过程
解释器与编译器
机器码
指令
指令集
汇编语言
高级语言
JVM设计者们的初衷仅仅只是单纯地为了满足Java程序实现跨平台特性,因此避免采用静态编译的方式直接生成本地机器指令,从而诞生了实现解释器在运行时采用逐行解释字节码执行程序的想法。
分类
字节码解释器
模版解释器
解释器现在被认为是低效的代名词,所以出现了即时编译技术,将整个函数编译成机器码并缓存,函数执行时直接执行缓存
JVM中JIT会将热点代码通过JIT编译并缓存进方法区。
Hotspot使用解释器与JIT的原因
当虚拟机启动的时候,解释器可以首先发挥作用,而不必等待即时编译器全部编译完成再执行,这样可以省去许多不必要的编译时间。并且随着程序运行时间的推移,即时编译器逐渐发挥作用,根据热点探测功能,将有价值的字节码编译为本地机器指令,以换取更高的程序执行效率。
编译器概念解释:
热点代码探测方式:
当然是否需要启动JIT编译器将字节码直接编译为对应平台的本地机器指令,则需要根据代码被调用执行的频率而定。关于那些需要被编译为本地代码的字节码,也被称之为**“热点代码”,JIT编译器在运行时会针对那些频繁被调用的“热点代码”做出深度优化**,将其直接编译为对应平台的本地机器指令,以此提升Java程序的执行性能。
方法计数器
这个计数器就用于统计方法被调用的次数,它的默认阈值在 client模式下是1500 次,在 Server模式下是10000 次。超过这个阈值,就会触发JIT编译。
这个阈值可以通过虚拟机参数**-xx: compileThreshold**来人为设定。
当一个方法被调用时,会先检查该方法是否存在被JIT编译过的版本,如果存在,则优先使用编译后的本地代码来执行。如果不存在已被编译过的版本,则将此方法的调用计数器值加1,然后判断方法调用计数器与回边计数器值之和是否超过方法调用计数器的阈值。如果已超过阈值,那么将会向即时编译器提交一个该方法的代码编译请求。
热度衰减
如果不做任何设置,方法调用计数器统计的并不是方法被调用的绝对次数,而是一个相对的执行频率,即一段时间之内方法被调用的次数。当超过一定的时间限度,如果方法的调用次数仍然不足以让它提交给即时编译器编译,那这个方法的调用计数器就会被减少一半,这个过程称为方法调用计数器热度的衰减(Counter Decay),而这段时间就称为此方法统计的半衰周期(Counter Half Life Time)。
进行热度衰减的动作是在虚拟机进行垃圾收集时顺便进行的,可以使用虚拟机参数**-XX:-UseCounterDecay**来关闭热度衰减,让方法计数器统计方法调用的绝对次数,这样,只要系统运行时间足够长,绝大部分方法都会被编译成本地代码。
另外,可以使用**-XX:CounterHalfLifeTime**参数设置半衰周期的时间,单位是秒。
回边计数器
判断循环体执行次数
缺省情况下HotSpot VM是采用解释器与即时编译器并存的架构,当然开发人员可以根据具体的应用场景,通过命令显式地为Java虚拟机指定在运行时到底是完全采用解释器执行,还是完全采用即时编译器执行。如下所示:
-Xmixed 混合模式
-Xcomp 解释器模式
-Xint 编译模式
JIT分类
在HotSpot VM中内嵌有两个JIT编译器,分别为client Compiler和server
Compiler,但大多数情况下我们简称为c1编译器和c2编译器。开发人员可以通过如下命令显式指定Java虚拟机在运行时到底使用哪一种即时编译器,如下所示:
string:字符串,使用一对""引起来表示。
string声明为final的,不可被继承
string实现了serializable接口:表示字符串是支持序列化的。实现了comparable接口:表示string可以比较大小
string在jdk8及以前内部定义了final char[ ] value用于存储字符串数据。jdk9时改为byte[]
string:代表不可变的字符序列。简称:不可变性。
通过字面量的方式(区别于new)给一个字符串赋值,此时的字符串值声明在字符串常量池中。
字符串常量池不会存储相同的字符串
在Java语言中有8种基本数据类型和一种比较特殊的类型string。这些类型为了使它们在运行过程中速度更快、更节省内存,都提供了一种常量池的概念。
常量池就类似一个Java系统级别提供的缓存。8种基本数据类型的常量池都是系统协调的,String类型的常量池比较特殊。它的主要使用方法有两种。
直接使用双引号声明出来的string对象会直接存储在常量池中。比如:string info = “atguigu.com” ;
如果不是用双引号声明的string对象,可以使用string提供的intern()方法。
Java6及以前,字符串常量池存放在永久代。
Java 7 中 oracle 的工程师对字符串池的逻辑做了很大的改变,即将字符串常量池的位置调整到Java堆内。
Java8元空间,字符串常量在堆
1.常量与常量的拼接结果在常量池,原理是编译期优化
2.常量池中不会存在相同内容的常量。
3.**只要其中有一个是变量,结果就在堆中。**变量拼接的原理是StringBuilder
4.如果拼接的结果调用intern ()方法,则主动将常量池中还没有的字符串对象放入池中,并返回此对象地址。
如果拼接时操作符两边有变量。但是变量被final修饰了,这个值在编译时就能被确定,所以会指向常量池
final String a = "Hello";
String b = "HelloWorld";
String c = a + "Wordl";
System.out.println(c == b); // true
同时要注意如果频繁的做相同字符串的拼接,最好手动创建一个StringBuilder使用它的append方法,如果能确定最终字符串的长度,可以在创建StringBuilder对象的时候指定大小,避免了重复的扩容操作。
面试难题(运行结果在不同版本不同)
String s = new String( original: "1");
s.intern( );
String s2 = "1";
System.out.println(s == s2);// jdk6=>false jdk7/8=>false
String s3 = new String( original: "1") + new String( original: "1");
s3.intern();
String s4 = "11";
System.out.println(s3 == s4);// jdk6=>false jdk7/8=>true
StringTable中存的只是一个索引,索引指向堆内存(JDK1.8)中一个String对象,这些对象也会被垃圾回收‘
所以可以提高内存的利用率
背景:对许多Java应用(有大的也有小的)做的测试得出以下结果:
堆存活数据集合里面string对象占了25%
堆存活数据集合里面重复的string对象有13.5%
String对象的平均长度是45
许多大规模的Java应用的瓶颈在于内存,测试表明,在这些类型的应用里面,Java堆中存活的数据集合差不多25%是string对象。更进一步这里面差不多一半string对象是重复的,重复的意思是说:
stringl.equals (string2) =true。堆上存在重复的string对象必然是一种内存的浪费。这个项目将在c1垃圾收集器中实现自动持续对重复的string对象进行去重,这样就能避免浪费内存。
垃圾是指在运行程序中没有任何指针指向的对象,这个对象就是需要被回收的垃圾。
如果不及时对内存中的垃圾进行清理,那么,这些垃圾对象所占的内存空间会一直保留到应用程序结束,被保留的空间无法被其他对象使用。甚至可能导致内存溢出。
在早期的C/C++时代,垃圾回收基本上是手工进行的。开发人员可以使用new关键字进行内存申请,并使用delete关键字进行内存释放。
这种方式可以灵活控制内存释放的时间,但是会给开发人员带来频繁申请和释放内存的管理负担。倘若有一处内存区间由于程序员编码的问题忘记被回收,那么就会产生内存泄漏,垃圾对象永远无法被清除,随着系统运行时间的不断增长,垃圾对象所耗内存可能持续上升,直到出现内存溢出并造成应用程序崩溃。
现在,除了Java以外,C#、Python、Ruby等语言都使用了自动垃圾回收的思想,也是未来发展趋势。可以说,这种自动化的内存分配和垃圾回收的方式己经成为现代开发语言必备的标准。
好处
自动内存管理,无需开发人员手动参与内存的分配与回收,这样降低内存泄漏和内存溢出的风险
自动内存管理机制,将程序员从繁重的内存管理中释放出来,可以更专心地专注于业务开发
后果
引用计数算法(Reference Counting)比较简单,对每个对象保存一个整型的引用计数器属性。用于记录对象被引用的情况。
对于一个对象A,只要有任何一个对象引用了A,则A的引用计数器就加1;当引用失效时,引用计数器就减1。只要对象A的引用计数器的值为0,即表示对象A不可能再被使用,可进行回收。
优点:
缺点:
相对于引用计数算法而言,可达性分析算法不仅同样具备实现简单和执行高效等特点,更重要的是该算法可以有效地解决在引用计数算法中循环引用的问题,防止内存泄漏的发生。
相较于引用计数算法,这里的可达性分析就是Java、C#选择的。这种类型的垃圾收集通常也叫作追踪性垃圾收集( Tracing Garbagecollection) 。
基本思路
所谓"GC Roots"根集合就是一组必须活跃的引用。
基本思路:
哪些对象可以作为GC Roots
小技巧:
注意:
如果要使用可达性分析算法来判断内存是否可回收,那么分析工作必须在一个能保障一致性的快照中进行。这点不满足的话分析结果的准确性就无法保证。
这点也是导致GC进行时必须**“stop The world”**的一个重要原因。即使是号称(几乎)不会发生停顿的CMS 收集器中,枚举根节点时
也是必须要停顿的。
Java语言提供了对象终止(finalization)机制来允许开发人员提供对象被销毁之前的自定义处理逻辑。
当垃圾回收器发现没有引用指向一个对象,即:垃圾回收此对象之前,总会先调用这个对象的finalize ()方法。
finalize()方法允许在子类中被重写,**用于在对象被回收时进行资源释放。**通常在这个方法中进行一些资源释放和清理的工作,比如关闭文件、套接字和数据库连接等。
永远不要主动调用某个对象的finalize ()方法,应该交给垃圾回收机制调用。
括下面三点:
从功能上来说,finalize()方法与c++中的析构函数比较相似,但是Java采用的是基于垃圾回收器的自动内存管理机制,所以finalize()方法在本质上不同于c++中的析构函数。
由于finalize()方法的存在,虚拟机中的对象一般处于三种可能的状态。
判定一个对象objA是否可回收,至少要经历两次标记过程:
1.如果对象objA到 GC Roots没有引用链,则进行第一次标记。
2.进行筛选,判断此对象是否有必要执行finalize ()方法
背景:
标记–清除算法( Mark-Sweep )是一种非常基础和常见的垃圾收集算法,该算法被J.McCarthy等人在1960年提出并并应用于Lisp语言。
执行过程:
当堆中的有效内存空间(available memory)被耗尽的时候,就会停止整个程序(也被称为stop the world),然后进行两项工作,第一项则是标记,第二项则是清除。
缺点:
背景:
为了解决标记-清除算法在垃圾收集效率方面的缺陷,M.L.Minsky于1963年发表了著名的论文,“使用双存储区的Lisp语言垃圾收集器CALISP Garbage collector Algorithm using serial secondary Storage ) ”。M.L.Minsky在该论文中描述的算法被人们称为复制(copying)算法,它也被M.L.Minsky 本人成功地引入到了Lisp语言的一个实现版本中。
核心思想:
将活着的内存空间分为两块,每次只使用其中一块,在垃圾回收时将正在使用的内存中的存活对象复制到未被使用的内存块中,之后清除正在使用的内存块中的所有对象,交换两个内存的角色,最后完成垃圾回收。
优点:
缺点:
背景:
复制算法的高效性是建立在存活对象少、垃圾对象多的前提下的。这种情况在新生代经常发生,但是在老年代,更常见的情况是大部分对象都是存活对象。如果依然使用复制算法,由于存活对象较多,复制的成本也将很高。因此,基于老年代垃圾回收的特性,需要使用其他的算法。
标记一清除算法的确可以应用在老年代中,但是该算法不仅执行效率低下,而且在执行完内存回收后还会产生内存碎片,所以JVM的设计者需要在此基础之上进行改进压缩(Mark - compact)算法由此诞生。
1970年前后,G. L. steele .c. J. Chene 和D.s. wise 等研究者发布标记-压缩算法。在许多现代的垃圾收集器中,人们都使用了标记-压缩算法或其改进版本。
步骤:
优点:
消除了标记-清除算法当中,内存区域分散的缺点,我们需要给内存时,JVM只需要持有一个内存的起始地址即可。
消除了复制算法当中,内存减半的高额代价。
缺点:
从效率上来说,标记-整理算法要低于复制算法。
移动对象的同时,如果对象被其他对象引用,则还需要调整引用的地址。
移动过程中,需要全程暂停用户应用程序。即:STW
前面所有这些算法中,并没有一种算法可以完全替代其他算法,它们都具有自己独特的优势和特点。分代收集算法应运而生。
分代收集算法,是基于这样一个事实:不同的对象的生命周期是不一样的。因此,不同生命周期的对象可以采取不同的收集方式,以便提高回收效率。一般是把Java堆分为新生代和老年代,这样就可以根据各个年代的特点使用不同的回收算法,以提高垃圾回收的效率。
在Java程序运行的过程中,会产生大量的对象,其中有些对象是与业务信息相关,比如Http请求中的session对象、线程、Socket连接,这类对象跟业务直接挂钩,因此生命周期比较长。但是还有一些对象,主要是程序运行过程中生成的临时变量,这些对象生命周期会比较短,比如: String对象,由于其不变类的特性,系统会产生大量的这些对象,有些对象甚至只用一次即可回收。
目前几乎所有的GC都是采用分代收集(Generational Collecting)算法执行垃圾回收的。
在HotSpot中,基于分代的概念,GC所使用的内存回收算法必须结合年轻代和老年代各自的特点。
年轻代特点:区域相对老年代较小,对象生命周期短、存活率低,回收频繁。
这种情况复制算法的回收整理,速度是最快的。复制算法的效率只和当前存活对象大小有关,因此很适用于年轻代的回收。而复制算法内存利用率不高的问题,通过hotspot中的两个survivor的设计得到缓解。
老年代特点:区域较大,对象生命周期长、存活率高,回收不及年轻代频繁。
这种情况存在大量存活率高的对象,复制算法明显变得不合适。一般是由标记-清除或者是标记-清除与标记-整理的混合实现。
Mark阶段的开销与存活对象的数量成正比。Sweep阶段的开销与所管理区域的大小成正相关。compact阶段的开销与存活对象的数据成正比。
增量收集算法
上述现有的算法,在垃圾回收过程中,应用软件将处于一种stop the world 的状态。在stop the world 状态下,应用程序所有的线程都会挂起,暂停一切正常的工作,等待垃圾回收的完成。如果垃圾回收时间过长,应用程序会被挂起很久,**将严重影响用户体验或者系统的稳定性。**为了解决这个问题,即对实时垃圾收集算法的研究直接导致了增量收集(Incremental collecting)算法的诞生。
基本思想:
如果一次性将所有的垃圾进行处理,需要造成系统长时间的停顿,那么就可以让垃圾收集线程和应用程序线程交替执行。每次,垃圾收集线程只收集一小片区域的内存空间,接着切换到应用程序线程。依次反复,直到垃圾收集完成。
总的来说,增量收集算法的基础仍是传统的标记-清除和复制算法。增量收集算法通过对线程间冲突的妥善处理,允许垃圾收集线程以分阶段的方式完成标记、清理或复制工作。
缺点:
使用这种方式,由于在垃圾回收过程中,间断性地还执行了应用程序代码,所以能减少系统的停顿时间。但是,因为线程切换和上下文转换的消耗,会使得垃圾回收的总体成本上升,造成系统吞吐量的下降。
分区算法
一般来说,在相同条件下,堆空间越大,一次GC时所需要的时间就越长,有关GC产生的停顿也越长。为了更好地控制cc产生的停顿时间,将一块大的内存区域分割成多个小块,根据目标的停顿时间,每次合理地回收若干个小区间,而不是整个堆空间,从而减少一次GC所产生的停顿。
分代算法将按照对象的生命周期长短划分成两个部分,分区算法将整个堆空间划分成连续的不同小区间region。
每一个小区间都独立使用,独立回收。这种算法的好处是可以控制一次回收多少个小区间。
在默认情况下,通过System.gc()或者Runtime. getRuntime ( ) .gc ()的调用,会显式触发Full GC,同时对老年代和新生代进行回收,尝试释放被丢弃对象占用的内存。
然而System.gc()调用附带一个免责声明,无法保证对垃圾收集器的调用。
JVM实现者可以通过system.gc ()调用来决定JVM的GC行为。而一般情况下,垃圾回收应该是自动进行的,无须手动触发,否则就太过于麻烦了。在一些特殊情况下,如我们正在编写一个性能基准,我们可以在运行之间调用System.gc ( ) 。
内存溢出(OOM)
内存溢出相对于内存泄漏来说,尽管更容易被理解,但是同样的,内存溢出也是引发程序崩溃的罪魁祸首之一。
由于GC一直在发展,所有一般情况下,除非应用程序占用的内存增长速度非常快,造成垃圾回收已经跟不上内存消耗的速度,否则不太容易出现ooM的情况。
大多数情况下,GC会进行各种年龄段的垃圾回收,实在不行了就放大招,来一次独占式的Full GC操作,这时候会回收大量的内存,供应用程序继续使用。
javadoc中对outofMemoryError的解释是,没有空闲内存,并且垃圾收集器也无法提供更多内存。
原因
(1) Java虚拟机的堆内存设置不够。
比如:可能存在内存泄漏问题;也很有可能就是堆的大小不合理,比如我们要处理比较可观的数据量,但是没有显式指定JVM堆大小或者指定数值偏小。我们可以迪过参数-Xms. -Xmx来调整。
(2)代码中创建了大量大对象,并且长时间不能被垃圾收集器收集(存在被引用)
对于老版本的oracle JDK,因为永久代的大小是有限的,并且JVM对永久代垃圾回收(如,常量池回收、卸载不再需要的类型)非常不积极,所以当我们不断添加新类型的时候,永久代出现outOfMemoryError也非常多见,尤其是在运行时存在大量动态类型生成的场合;类似intern字符串缓存占用太多空间,也会导致ooM问题。对应的异常信息,会标记出来和永久代相关:“java.lang.OutOfMemoryError: PermGen space"。
随着元数据区的引入,方法区内存已经不再那么窘迫,所以相应的ooM有所改观,出现OOM,异常信息则变成了:“java.lang.OutOfMemoryError: Metaspace"。直接内存不足,也会导致OOM。
内存泄露
也称作“存储渗漏”。严格来说,只有对象不会再被程序用到了,但是GC又不能回收他们的情况,才叫内存泄漏。.
但实际情况很多时候一些不太好的实践(或疏忽)会导致对象的生命周期变得很长甚至导致OOM,也可以叫做宽泛意义上的“内存泄漏”。
尽管内存泄漏并不会立刻引起程序崩溃,但是一旦发生内存泄漏,程序中的可用内存就会被逐步蚕食,直至耗尽所有内存,最终出现outOfMemory异常,导致程序崩溃。
注意,这里的存储空间并不是指物理内存,而是指虚拟内存大小,这个虚拟内存大小取决于磁盘交换区设定的大小。
举例:
1、单例模式
单例的生命周期和应用程序是一样长的,所以单例程序中,如果持有对外部对象的引用的话,那么这个外部对象是不能被回收的,则会导致内存泄漏的产生。
2、一些提供close的资源未关闭导致内存泄漏
数据库连接( dataSourse.getconnection()),网络连接(socket)和io连接必须手动close,否则是不能被回收的。
stop-the-world ,简称sTw,指的是cc事件发生过程中,会产生应用程序的停顿。停顿产生时整个应用程序线程都会被暂停,没有任何响应,有点像卡死的感觉,这个停顿称为STw。
被STW中断的应用程序线程会在完成GC之后恢复,频繁中断会让用户感觉像是网速不快造成电影卡带一样,所以我们需要减少STW的发生。
STW事件和采用哪款GC无关,所有的GC都有这个事件。
哪怕是G1也不能完全避免stop-the-world情况发生,只能说垃圾回收器越来越优秀,回收效率越来越高,尽可能地缩短了暂停时间。
STW是JVM在后台自动发起和自动完成的。在用户不可见的情况下,把用户正常的工作线程全部停掉。
开发中不要用system.gc();会导致stop-the-world的发生。
程序中的并发
在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理器上运行。
并发不是真正意义上的“同时进行”,只是CP把一个时间段划分成几个时间片段(时间区间),然后在这几个时间区间之间来回切换,由于CPU处理的速度非常快,只要时间间隔处理得当,即可让用户感觉是多个应用程序同时在进行。
程序中的并行
垃圾回收中的并发与并行
并发和并行,在谈论垃圾收集器的上下文语境中,它们可以解释如下:
并发(Concurrent):指用户线程与垃圾收集线程同时执行(但不一定是并行的,可能会交替执行),垃圾回收线程在执行时不会停顿用户程序的运行。
安全点
程序执行时并非在所有地方都能停顿下来开始GC,只有在特定的位置才能停顿下来开始GC,这些位置称为“安全点(Safepoint) ”。
Safe Point的选择很重要,如果太少可能导致GC等待的时间太长,如果太频繁可能导致运行时的性能问题。大部分指令的执行时间都非常短暂,通常会根据“是否具有让程序长时间执行的特征”为标准。比如:选择一些执行时间较长的指令作为Safe Point,如方法调用、循环跳转和异常跳转等。
如何在GC发生时,检查所有线程都跑到最近的安全点停顿下来呢?
安全区域
Safepoint机制保证了程序执行时,在不太长的时间内就会遇到可进入GC的 Safepoint 。但是,程序“不执行”的时候呢?例如线程处于Sleep 状态或Blocked 状态,这时候线程无法响应JVM的中断请求,“走”到安全点去中断挂起,JVM也不太可能等待线程被唤醒。对于这种情况,就需要安全区域( Safe Region)来解决。
安全区域是指在一段代码片段中,对象的引用关系不会发生变化,在这个区域中的任何位置开始GC都是安全的。我们也可以把safe Region看做是被扩展了的safepoint。
实际执行时:
1、当线程运行到safe Region的代码时,首先标识已经进入了Safe Region,如果这段时间内发生Gc,JVM会忽略标识为Safe Region状态的线程;
2、当线程即将离开safe Region时,会检查JVM是否已经完成Gc,如果完成了,则继续运行,否则线程必须等待直到收到可以安全离开safe Region的信号为止;
在JDK 1.2版之后,Java对引用的概念进行了扩充,将引用分为强引用(Strong Reference)、软引用(Soft Reference)、弱引用(weak Reference)和虚引用(Phantom Reference)4种,这4种引用强度依次逐渐减弱。
强、软、弱、虚
强引用(StrongReference):最传统的“引用”的定义,是指在程序代码之中普遍存在的引用赋值,即类似“object obj=new 0bject()”这种引用关系。无论任何情况下,只要强引用关系还存在,垃圾收集器就永远不会回收掉被引用的对象。
软引用(SoftReference):在系统将要发生内存溢出之前,将会把这些对象列入回收范围之中进行第二次回收。如果这次回收后还没有足够的内存,才会抛出内存溢出异常
弱引用(WeakReference):被弱引用关联的对象只能生存到下一次垃圾收集之前。当垃圾收集器工作时,无论内存空间是否足够,都会回收掉被弱引用关联的对象。
虚引用(PhantomReference) :一个对象是否有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来获得一个对象的实例。为一个对象设置虚引用关联的唯一目的就是能在这个对象被收集器回收时收到一个系统通知。
在]ava程序中,最常见的引用类型是强引用(普通系统99%以上都是强引用),也就是我们最常见的普通对象引用,也是默认的引用类型。
当在Java语言中使用new操作符创建一个新的对象,并将其赋值给一个变量的时候,这个变量就成为指向该对象的一个强引用。
强引用的对象是可触及的,垃圾收集器就永远不会回收掉被引用的对象。
对于一个普通的对象,如果没有其他的引用关系,只要超过了引用的作用域或者显式地将相应(强)引用赋值为null,就是可以当做垃圾被收集了,当然具体回收时机还是要看垃圾收集策略。
相对的,软引用、弱引用和虚引用的对象是软可触及、弱可触及和虚可触及的,在定条件下,都是可以被回收的。所以,强引用是造成Java内存泄漏的主要原因之一。
特点:
SoftReference
软引用是用来描述一些还有用,但非必需的对象。只被软引用关联着的对象,在系统将要发生内存溢出异常前,会把这些对象列进回收范围之中进行第二次回收,如果这次回收还没有足够的内存,才会抛出内存溢出异常。
软引用通常用来实现内存敏感的缓存。比如:高速缓存就有用到软引用。如果还有空闲内存,就可以暂时保留缓存,当内存不足时清理掉,这样就保证了使用缓存的同时,不会耗尽内存。
垃圾回收器在某个时刻决定回收软可达的对象的时候,会清理软引用,并可选地把引用存放到一个引用队列(Reference Queue) 。
类似弱引用,只不过Java虚拟机会尽量让软引用的存活时间长一些,迫不得己才清理。
WeakReference
弱引用也是用来描述那些非必需对象,被弱引用关联的对象只能生存到下一次垃圾收集发生为止。在系统GC时,只要发现弱引用,不管系统堆空间使用是否充足,都会回收掉只被弱引用关联的对象。
但是,由于垃圾回收器的线程通常优先级很低,因此,并不一定能很快地发现持有弱引用的对象。在这种情况下,弱引用对象可以存在较长的时间。
弱引用和软引用一样,在构造弱引用时,也可以指定一个引用队列,当弱引用对象被回收时,就会加入指定的引用队列,通过这个队列可以跟踪对象的回收情况。
**软引用、弱引用都非常适合来保存那些可有可无的缓存数据。**如果这么做,当系统内存不足时,这些缓存数据会被回收,不会导致内存溢出。而当内存资源充足时,这些缓存数据又可以存在相当长的时间,从而起到加速系统的作用。
WeakHashMap中Entry的实现继承了WeakReference,这样可以在内存不足的时候删除map中的数据
PhantomReference
虚引用必须和引用队列一起使用。虚引用在创建时必须提供一个引用队列作为参数。当垃圾回收器准备回收一个对象时,如果发现它’有成引用,就会在回收对象后,将这个虚引用加入引用队列,以通知应用程对象的回收情况。
由于虚引用可以跟踪对象的回收时间,因此,也可以将一些资源释放操作放置在虚引用中执行和记录。
在JDK 1.2版之后提供了PhantomReference类来实现虚引用。
指标:
吞吐量:运行用户代码的时间占总运行时间的比例(总运行时间:程序的运行时间+内存回收的时间)
垃圾收集开销:吞吐量的补数,垃圾收集所用时间与总运行时间的比例。
暂停时间:执行垃圾收集时,程序的工作线程被暂停的时间。
收集频率:相对于应用程序的执行,收集操作发生的频率。
内存占用:Java堆区所占的内存大小。
快速:一个对象从诞生到被回收所经历的时间。
吞吐量、暂停时间、内存占用构成一个“不可能三角”,最多只能满足其中两者
吞吐量优先、暂停时间优先
吞吐量优先代表,单次暂停时间可能会长一些,保证单位时间内暂停时间最短即可,需要降低回收的频率。
吞吐量优先代表,单次暂停时间短,回收频率高,吞吐量更小
当前标准:在最大吞吐量优先的情况下,尽量降低暂停时间
红线:在jdk8中过时,jdk移除
绿线:jdk14移除
青线:jdk9过时,jdk14移除
在jdk9时G1作为默认回收器
在jdk8时Parallel作为默认回收器
如何查看默认垃圾回收器
-XX :+PrintCommandLineFlags:查看命令行相关参数(包含使用的垃圾收集器)
使用命令行指令: jinfo -flag 相关垃圾回收器参数 进程ID
Serial收集器是最基本、历史最悠久的垃圾收集器了。JDK1.3之前回收新生代唯一的选择。
Serial收集器作为HotSpot中client模式下的默认新生代垃圾收集器。
Serial收集器采用复制算法、串行回收和"stop-the-world"机制的方式执行内存回收。
除了年轻代之外,Serial收集器还提供用于执行老年代垃圾收集的serial old收集器。Serial old 收集器同样也采用了串行回收和"stop the world"机制,只不过内存回收算法使用的是标记-压缩算法。
Serial old是运行在client模式下默认的老年代的垃圾回收器
Serial old在server模式下主要有两个用途:①与新生代的ParallelScavenge配合使用②作为老年代CMs收集器的后备垃圾收集方案
这个收集器是一个单线程的收集器,但它的“单线程”的意义并不仅仅说明它只会使用一个CPu或一条收集线程去完成垃圾收集工作,更重要的是在它进行垃圾收集时,必须暂停其他所有的工作线程,直到它收集结束(stop The world)
**优势:**简单而高效(与其他收集器的单线程比),对于限定单个CPU的环境来说,Serial收集器由于没有线程交互的开销,专心做垃圾收集自然可以获得最高的单线程收集效率。运行在client模式下的虚拟机是个不错的选择。
在HotSpot虚拟机中,使用**-XX:+UseSerialGC**参数可以指定年轻代和老年代都使用串行收集器。等价于新生代用serial GC,且老年代用serial old GC
如果说serial cc是年轻代中的单线程垃圾收集器,那么ParNew收集器则是serial收集器的多线程版本。
Par是Parallel的缩写,New:只能处理的是新生代
ParNew收集器除了采用并行回收的方式执行内存回收外,两款垃圾收集器之间几乎没有任何区别。ParNew收集器在年轻代中同样也是采用复制算法、"stop-the-world"机制。
ParNew是很多JVM运行在server模式下新生代的默认垃圾收集器。
在单个CPU的环境下,ParNew收集器不比Serial收集器更高效。虽然Serial收集器是基于串行回收,但是由于CPU不需要频繁地做任务切换,因此可以有效避免多线程交互过程中产生的一些额外开销。
在程序中,开发人员可以通过选项"-XX:+UseParNewGC"手动指定使用ParNew收集器执行内存回收任务。它表示年轻代使用并行收集器,不影响老年代。
-XX: ParallelGCThreads 限制线程数量,默认开启和cPU数据相同的线程数。
高吞吐量则可以高效率地利用CPU时间,尽快完成程序的运算任务,主要适合在后台运算而不需要太多交互的任务。因此,常见在服务器环境中使用。例如,那些执行批量处理、订单处理、工资支付、科学计算的应用程序。
Parallel收集器在JDK1.6时提供了用于执行老年代垃圾收集的Parallel old收集器,用来代替老年代的serial old收集器。
Parallel old收集器采用了标记-压缩算法,但同样也是基于并行回收和"Stop-the-world"机制。
参数:
-XX:+UseParallelGC手动指定年轻代使用Parallel并行收集器执行内存回收任务。
-XX:+UseParallelOldGC手动指定老年代都是使用并行回收收集器。分别适用于新生代和老年代。默认jdk8是开启的。上面两个参数,默认开启一个,另一个也会被开启。(互相激活)
-XX : ParallelGCThreads设置年轻代并行收集器的线程数。一般地,最好与cPu数量相等,以避免过多的线程数影响垃圾收集性能。
-XX:MaxGCPauseMillis 设置垃圾收集器最大停顿时间(即sTw的时间)。单位是毫秒。
-XX:GCTimeRatio 垃圾收集时间占总时间的比例(= 1 / (N + 1))。用于衡量吞吐量的大小。
-XX:+UseAdaptivesizePolicy设置Parallel Scavenge收集器具有自适应调节策略
不幸的是,CMS作为老年代的收集器,却无法与JDK 1.4.0中已经存在的新生代收集器Parallel scavenge 配合工作,所以在JDK 1.5中使用CMS来收集老年代的时候,新生代只能选择ParNew或者serial收集器中的一个。
在G1出现之前,CMS使用还是非常广泛的。
优缺点分析
优点:
缺点:
应用程序所应对的业务越来越庞大、复杂,用户越来越多,就不能保证应用程序正常进行,而经常造成sTw的cc又跟不上实际的需求,所以才会不断地尝试对cc进行优化。G1 (Garbage-First)垃圾回收器是在Java7 update 4之后引入的一个新的垃圾回收器,是当今收集器技术发展的最前沿成果之一。
与此同时,为了适应现在不断扩大的内存和不断增加的处理器数量,进一步降低暂停时间(pause time),同时兼顾良好的吞吐量。
官方给G1设定的目标是在延迟可控的情况下获得尽可能高的吞吐量,所以才担当起“全功能收集器”的重任与期望。
因为G1是一个并行回收器,它把堆内存分割为很多不相关的区域(Region)不连续的)。使用不同的Region来表示Eden、幸存者o区,幸存者1区,老年代等。
G1GC有计划地避免在整个Java堆中进行全区域的垃圾收集。G1跟踪各个 Region里面的垃圾堆积的价值大小(回收所获得的空间大小以及回收所需时间的经验值),在后台维护一个优先列表,每次根据允许的收集时间,优先回收价值最大的Region。
由于这种方式的侧重点在于回收垃圾最大量的区间(Region),所以我们给G1一个名字:垃圾优先(Garbage First)。
G1 (Garbage-First)是一款面向服务端应用的垃圾收集器,主要针对配备多核CPU及大容量内存的机器,以极高概率满足GC停顿时间的同时,具高吞吐量的性能特征。
在JDK1.7版本正式启用,移除了Experimental的标识,是JDK 9以后的默认垃圾回收器,取代了CMS回收器以及Parallel + Parallel old组合。被oracle官方称为“全功能的垃圾收集器”。
与此同时,CMS已经在JDK 9中被标记为废弃(deprecated)。在jdk8中还不是默认的垃圾回收器,需要使用-XX:+UseG1GC来启用。
相较于CMS,G1还不具备全方位、压倒性优势。比如在用户程序运行过程中,G1无论是为了垃圾收集产生的内存占用(Footprint)还是程序运行时的额外执行负载(overload)都要比CMS要高。
从经验上来说,在小内存应用上CMS的表现大概率会优于G1,而G1在大内存应用上则发挥其优势。平衡点在6-8GB之间。
面向服务端应用,针对具有大内存、多处理器的机器。(在普通大小的堆里表现并不惊喜)
最主要的应用是需要低GC延迟,并具有大堆的应用程序提供解决方案;
如:在堆大小约6GB或更大时,可预测的暂停时间可以低于0.5秒;(G1通过每次只清理一部分而不是全部的Region的增量式清理来保证每次GC停顿时间不会过长)。
用来替换掉丁JDK1.5中的CMS收集器;
在下面的情况时,使用G1可能比CMS好:
HotSpot垃圾收集器里,除了G1以外,其他的垃圾收集器使用内置的JVM线程执行GC的多线程操作,而G1 GC可以采用应用线程承担后台运行的Gc工作,即当JVM的GC线程处理速度慢时,系统会调用应用程序线程帮助加速垃圾回收过程。
使用G1收集器时,它将整个Java堆划分成约2048个大小相同的独立Region块,每个Region块大小根据堆空间的实际大小而定,整体被控制在1MB到32MB之间,且为2的N次幂,即1MB,2MB,4MB,8MB,16MB,32MB。可以通过-XX:GlHeapRegionsize设定。所有的Region大小相同,且在JVM生命周期内不会被改变。
虽然还保留有新生代和老年代的概念,但新生代和老年代不再是物理隔离的了,它们都是一部分Region(不需要连续)的集合。通过Region的动态分配方式实现逻辑上的连续。
设置H的原因:
对于堆中的大对象,默认直接会被分配到老年代,但是如果它是一个短期存在的大对象,就会对垃圾收集器造成负面影响。为了解决这个问题,G1划分了一个Humongous区,它用来专门存放大对象。**如果一个H区装不下一个大对象,那么G1会寻找连续的H区来存储。**为了能找到连续的H区,有时候不得不启动Full Gc。G1的大多数行为都把H区作为老年代的一部分来看待。
G1 GC的垃圾回收过程主要包括如下三个环节:
相关概念
Remember Set
解决方案:
7款经典垃圾回收器
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EqGHiNXx-1637148184541)(jvm-%E4%B8%8A%E7%AF%87-%E5%86%85%E5%AD%98%E4%B8%8E%E5%9E%83%E5%9C%BE%E5%9B%9E%E6%94%B6.assets/image-20211116140610740.png)]
-XX :+PrintGC 输出GC日志。类似:-verbose:gc
-XX:+PrintGCDetails 输出GC详细日志
-XX:+PrintGCTimeStamps 输出GC的时间戳(以基准时间的形式)
-XX:+PrintGCDateStamps 输出Gc的时间戳(以日期的形式,如2013-0504T21:53:59.234+0800)
-XX;+PrintHeapAtGC 在进行Gc的前后打印出堆的信息
-Xloggc: …/ logs/gc.log 日志文件的输出路径
导出的日志可以使用工具来看
GC仍然处于飞速发展之中,目前的默认选项G1 Gc在不断的进行改进,很多我们原来认为的缺点,例如串行的Full Gc、card Table扫描的低效等,都已经被大幅改进,例如,JDK 10以后,Full GC已经是并行运行,在很多场景下,其表现还略优于Parallel Gc的并行Full GC实现。
即使是Serial GC,虽然比较古老,但是简单的设计和实现未必就是过时的,它本身的开销,不管是Gc相关数据结构的开销,还是线程的开销,都是非常小的,所以随着云计算的兴起,在Serverless等新的应用场景下,Serial GC找到了新的舞台。
比较不幸的是CMS GC,因为其算法的理论缺陷等原因,虽然现在还有非常大的用户群体,但在JDK9中已经被标记为废弃,并在JDK14版本中移除。
ZGC
ZGC与shenandoah目标高度相似,在尽可能对吞吐量影响不大的前提下,实现在任意堆内存大小下都可以把垃圾收集的停顿时间限制在十毫秒以内的低延迟。
《深入理解Java虚拟机》一书中这样定义ZGC: ZGC收集器是一款基Region内存布局的,(暂时)不设分代的,使用了读屏障、染色指针和内存多重映射等技术来实现可并发的标记-压缩算法的,以低延迟为首要目标的一款垃圾收集器。
ZGC的工作过程可以分为4个阶段:并发标记-并发预备重分配-并发重分配-并发重映射等。
ZGC几乎在所有地方并发执行的,除了初始标记的是STW的。所以停顿时间几乎就耗费在初始标记上,这部分的实际时间是非常少的。