目录
无关性基石
Class类文件的结构
魔数和Class文件的版本
常量池
访问标识
类索引、父类索引与接口索引集合:
字段表集合
字段表结构:
字段访问标志
方法表集合:
方法表的结构:
属性表集合:
虚拟机规范预定义的属性:
Code属性
异常表的结构:
Exception属性
LineNumberTable属性
LocalVariableTable属性
SourceFile属性
ConstantValue属性
InnerClasses属性
InnerClasses属性结构:
Deprecated及Synthetic属性
StackMapTable属性
Signature属性
BootstrapMethods属性
字节码指令简介
指令的设计
基本类型
逻辑功能
指令的理解
指令-相关计算机英语词汇含义
指令-数据类型相关的指令
按照逻辑功能进行划分
一次编写,到处运行(Write One,Run Anywhere)
字节码(ByteCode)是构成平台无关性的基石。
其他语言运行在JVM上,语言无关性的基础仍然是虚拟机和字节码存储格式。
任何一个Class文件都对应者一个类或接口的定义信息,但是,类或接口不一定定义在class文件里。
Class文件是一组以8位字节为基础单位的二进制流,各项数据项目严格按照顺序紧凑地排列在Class文件之中,中间没有添加任何分隔符,如果是超过8位字节以上空间的数据项,则会按照高位在前的方式(Big-Endian)分割成若干个8位字节进行存储。
根据Java虚拟机规范的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储的,这种伪结构中只有两种数据类型:无符号数和表。
无符号数属于基本的数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值,或者按照UTF-8编码构成字符串值。
表是由多个无符号数或其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述有层次关系的复核结构的数据,整个Class文件本质上就是一张表,它是由下表所示的数据项构成的:
item | 含义 |
magic | 魔数,它的唯一作用时确定这个文件能否为一个能被虚拟机接受的Class文件。许多文件标准中都使用魔数来进行身份标识。Class文件的魔数值为:0xCAFEBABE |
minor_version | 这个类文件的次版本号。 |
major_version | 这个类文件的主版本号。 |
constant_pool_count | 常量池容器计数值,等于常量池(constant_pool)中实体数量加1。常量池的索引只有在比零大,比该值小才认为是有效的。 |
constant_pool[] | 常量池中的结构表示字符串常量、类名字、接口名字、字段(fieldname)、其他常量(指向ClassFile中的其他结构、子结构)。 |
access_flag | 访问标志。用于识别一些类或接口层次的访问信息,包括:这个Class是类还是接口;是否定义为public;是否定义为abstract类型;如果是类的话,是否被声明为final等。 |
this_class | 用于确定这个类的全限定名。 |
super_class | 用于确定这个类的父类的全限定名。 |
interfaces_count | 用于标识类实现了几个接口。 |
interfaces[] | 类实现了哪些接口,按implements后的顺序显示在这个集合中。 |
fields_count | 用于描述接口或者类中声明的变量的数量,字段包括类级变量以及实例级变量。 |
fields[] | 用于描述接口或者类中声明的变量,字段包括类级变量以及实例级变量。描述信息包括:字段的作用域(public、private、protected)、实例变量还是类变量(static)、可变性(final)、并发可见性(volatile)、字段数据类型、字段名称、可否被序列化。除字段数据类型、字段名称需要引用常量池中常量来描述外,其余均用标志位来表示。 |
methods_count | 接口或类中方法的数量。 |
methods[] | 描述接口或类中的方法。 |
每个Class文件的头四个字节称为魔数,它的唯一作用就是确定这个文件是否为一个能被虚拟机接受的Class文件。很多文件存储标准都是使用魔数而不是扩展名来进行识别,主要是基于安全方面考虑。紧接着魔数的四个字节存储的是Class文件的版本号:第五和第六是次版本号,第七和第八是主版本号。
JDK 1.7.0的主次版本号号是 00 00 00 33,不同的jdk版本号生成的版本号不同。
在编译时,如果带-target参数,则以此参数为准。
1. 有时候我们在运行程序时会抛出这个Error 错误:"java.lang.UnsupportedClassVersionError: Bad version number in .class file"。上面已经揭示了出现这个问题的原因,就是在于当前尝试加载class文件的JVM虚拟机的版本 低于class文件的版本。解决方法:1.重新使用当前jvm编译源代码,然后再运行代码;2.将当前JVM虚拟机更新到class文件的版本。
2. 怎样查看class文件的版本号?
可以借助于文本编辑工具,直接查看该文件的7,8个字节的值,确定class文件是什么版本的。
当然快捷的方式使用JDK自带的javap工具,如当前有Programmer.class 文件,进入此文件所在的目录,然后执行 ”javap -v Programmer“
紧接着主次版本号的是常量池,也可以理解为Class文件的资源仓库,它是与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一,同时还算第一个出现的表类型数据项目。
由于常量池中常量数量不固定,因此在入口处要放置一项u2(代表两个字节)类型的数据,代表常量池计数值(从1开始),因为计数的0代表“不引用任何一个常量池项目”的含义。
常量池中主要存放两大类常量:字面量(Literal)和符号引用(Symbolic References)。字面量比较接近于Java语言层面的常量概念,如文本字符串、声明为final的常量值等。符号引用则属于编译原理方面的概念,包括下面三类常量:
全限定名:包括完整包信息的限定名,例如”org/fenixsoft/clazz/TestClass”,
为了使多个全限定名之间不混淆,使用时最后一般加入一个”;”,表示全限定名结束。
简单名称:没有类型和参数修饰的方法或者字段名称,如:”inc()”方法和”m”变量。
相对于以上二者,方法和字段的描述符比较复杂一些,描述符的作用是用来描述字段的数据类型、方法的参数列表(包括数量、类型和顺序)和返回值。根据描述符规则,基本数据类型以及代表无返回值的void类型都用一个大写字符表示,而对象类型就用字符L加对象的全限定名来表示。对于数组,每一个维度前面加一个”[“来描述,例如”String[][]”类型的二位数组,则被记录为:”[[Ljava/lang/String;”,一个”int[]”将被记录为:”[I”。而方法的描述符,按照先参数列表,后返回值的顺序描述,参数列表按照参数的严格顺序放在一组小括号”()”之内。方法int indexOf(char[] source, int sourceOffset, int target)的描述为”([CII)I”。
常量池中每一项常量都是一个表,在JDK1.7之后共有14种表结构,它们有一个共同的特点,就是表开始的第一位是一个u1类型的标志位(tag,取值见下表),代表当前这个常量属于哪种常量类型。
类型 | 标志 | 描述 |
CONSTANT_Utf8_info | 1 | UTF-8编码字符串 |
CONSTANT_Integer_info | 3 | 整型字面量 |
CONSTANT_Float_info | 4 | 浮点型字面量 |
CONSTANT_Long_info | 5 | 长整型字面量 |
CONSTANT_Double_info | 6 | 双精度浮点型字面量 |
CONSTANT_Class_info | 7 | 类或接口的符号引用 |
CONSTANT_String_info | 8 | 字符串类型字面量 |
CONSTANT_Fieldref_info | 9 | 字段的符号引用 |
CONSTANT_Methodref_info | 10 | 类中方法的符号引用 |
CONSTANT_InterfaceMethodref_info | 11 | 接口中方法的符号引用 |
CONSTANT_NameAndType_info | 12 | 字段或方法的部分符号引用 |
CONSTANT_MethodHandle_info | 15 | 标识方法句柄 |
CONSTANT_MethodType_info | 16 | 标识方法类型 |
CONSTANT_InvokeDtnamic_info | 18 | 表示一个动态方法调用点 |
这14种常量类型各自有自己的结构,下面列出每个常量项的结构及含义
常量池中的14种常量项的结构总表:
紧接着常量池之后的两个字节代表访问标志(access_flags),用于识别一些类或者接口层次的访问信息,包括:这个Class是类还是接口、是否为public类型、是否为abstract类型、类是否声明为final等。标志位及其含义如下表:
标志名称 |
标志值 |
含义 |
ACC_PUBLIC |
0X0001 |
是否为public类型 |
ACC_FINAL |
0X0010 |
是否被声明为final,只有类可以设置 |
ACC_SUPER |
0X0020 |
是否允许使用invokespecial字节码指令的新语意,invokespecial指令的语意在JDK1.0.2发生过改变,为了区别这条指令使用哪种语意,JDK1.0.2之后编译 |
ACC_INTERFACE |
0X0200 |
标志这是一个接口 |
ACC_ABSTRACT |
0X0400 |
是否为abstract类型,对于接口或者抽象类来说,此标志值为真,其他类为假 |
ACC_SYNTHETIC |
0X1000 |
标志这个类并非由用户代码产生的 |
ACC_ANNOTATION |
0X2000 |
标志这是一个注解 |
ACC_ENUM |
0X4000 |
标志这是一个枚举 |
access_flags中一共有16个标志位可以使用,当前只定义了其中8个,没用使用到的标志位要求一律为0。 access_flages的值即为类满足上表中的值做或运算得到的值;
访问标志之后顺序排列类索引、父类索引、接口索引集合。Class文件中由这三项数据来确定这个类的继承关系。
this_class的值必须是对constant_pool表中项目的一个有效索引值。constant_pool表在这个索引处的项必须为CONSTANT_Class_info 类型常量,表示这个 Class 文件所定义的类或接口。
父类索引,对于类来说,super_class 的值必须为 0 或者是对constant_pool 表中项目的一个有效索引值。如果它的值不为 0,那 constant_pool 表在这个索引处的项必须为CONSTANT_Class_info 类型常量,表示这个 Class 文件所定义的类的直接父类。当前类的直接父类,以及它所有间接父类的access_flag 中都不能带有ACC_FINAL 标记。对于接口来说,它的Class文件的super_class项的值必须是对constant_pool表中项目的一个有效索引值。constant_pool表在这个索引处的项必须为代表 java.lang.Object 的 CONSTANT_Class_info 类型常量 。如果 Class 文件的 super_class的值为 0,那这个Class文件只可能是定义的是java.lang.Object类,只有它是唯一没有父类的类。
接口索引集合入口第一项是u2类型的接口计数器(interfaces_count)表示索引表的容量(即实现了几个接口)。如果该类没用实现任何接口,则计数器值为0,后面的接口索引表不再占用任何字节。
类索引查找全限定名的过程:
排在接口索引集合后边的是字段计数器:用于标识有多少个字段;接着就是字段表集合。
字段表(field_info)用于描述接口或者类中声明的变量。
字段包括类级变量以及实例级变量。可以包括的信息有:
类型 |
名称 |
数量 |
u2 |
access_flags |
1 |
u2 |
name_index |
1 |
u2 |
descriptor_index |
1 |
u2 |
attribute_count |
1 |
attribute_info |
attributes |
attribute_count |
字段修饰符放在access_flags项目中,它与类中的access_flags项目非常相似,都是一个u2的数据类型,可以设值的标志位和含义见下表
标志名称 |
标志值 |
含义 |
ACC_PUBLIC |
0X0001 |
字段是否public |
ACC_PRIVATE |
0X0002 |
字段是否private |
ACC_PROTECTED |
0X0004 |
字段是否protected |
ACC_STATIC |
0X0008 |
字段是否static |
ACC_FINAL |
0X0010 |
字段是否final |
ACC_VOLATILE |
0X0040 |
字段是否volatile |
ACC_TRANSIENT |
0X0080 |
字段是否transient |
ACC_SYNTHETIC |
0X0100 |
字段是否由编译器自动产生的 |
ACC_ENUM |
0X0400 |
字段是否enum |
跟随access_flags标志的是两项索引值:name_index和descriptor_index。它们都是对常量池的引用,分别代表字段的简单名称以及字段和方法的描述符。 描述符的作用是描述字段的数据类型、方法的参数列表(包括数量、类型及顺序)和返回值。根据描述符的规则,基本数据类型以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名表示,见下表
标识字符 |
含义 |
B |
基本类型byte |
C |
基本类型char |
D |
基本类型double |
F |
基本类型float |
I |
基本类型int |
J |
基本类型long |
S |
基本类型short |
Z |
基本类型boolean |
V |
特殊类型void |
L |
对象类型。如Ljava/lang/Object; 对象类型后加分号,分隔。 |
对于数组类型,每一维度将使用一个前置的“[”字符来描述,如“String[][]”,会被记录为"[[Ljava/lang/String","int[]"被记录为“[I”。
描述符描述方法时,按照先参数列表,后返回值的顺序描述。参数列表按照参数的严格顺序放置一组小括号“()”内,如void inc()的描述符为“()V”,“viod main(String[] args)”的描述符为“([Ljava/lang/String;)V”,“int indexOf(char[] source,int sourceOffset,int sourceCount,char[] target,int targetOffset,int targetCount,int fromIndex)”的描述符为“([CII[CIII)I”。
字段表都包含的固定数据项到descriptor_index为止就结束了,不过在descriptor_index之后跟随着一个属性表集合用于存储一些额外的信息,字段都可以在属性表中描述零至多项的额外信息。有关属性表的介绍会在后边具体讲解。
字段表集合中不会列出从超类或者父类接口中继承而来的字段,但有可能列出原本Java代码之中不存在的字段。譬如在内部类中为了保持对外部类的访问性,会自动添加指向外部类实例字段。
跟在字段表集合后的是方法计数器:用于标识有多少个方法;紧接着的就是方法表集合。
Class文件存储格式中对方法的描述与对字段的描述几乎采用完全一致的方式。
类型 |
名称 |
数量 |
u2 |
access_flags |
1 |
u2 |
name_index |
1 |
u2 |
descriptor_index |
1 |
u2 |
attribute_count |
1 |
attribute_info |
attributes |
attribute_count |
方法表所包含的数据项目的含义也和字段表集合的非常的类似,仅在访问标志和属性表集合的可选项中有所区别。由于volatile,transient关键字不能修饰方法,同时synchronized、native、strictfp和abstract关键字可以修饰方法。对于方法表,所有标志位及其取值如下:
标志名称 |
标志值 |
含义 |
ACC_PUBLIC |
0X0001 |
方法是否public |
ACC_PRIVATE |
0X0002 |
方法是否private |
ACC_PROTECTED |
0X0004 |
方法是否protected |
ACC_STATIC |
0X0008 |
方法是否static |
ACC_FINAL |
0X0010 |
方法是否final |
ACC_SYNCHRONIZED |
0X0020 |
方法是否synchronized |
ACC_BRIDGE |
0X0040 |
方法是否由编译器产生的桥接方法 |
ACC_VARARGS |
0X0080 |
方法是否接受不定参数 |
ACC_NATIVE |
0X0100 |
方法是否为native |
ACC_ABSTRACT |
0X0400 |
方法是否为abstract |
ACC_STRICTFP |
0X0800 |
方法是否为strictfp |
ACC_SYNTHETIC |
0X1000 |
防范是否由编译器自动产生 |
通过访问标志、名称索引、描述符索引可清楚的表达方法的定义。那方法里面的代码去哪里了呢?方法里的Java代码经过编译器编译成字节码指令后,存放在方法属性表集合中的“Code”属性中。属性表是Class文件格式中最具扩展性的一种数据项目。
与字段表集合相对应的,如果父类方法在子类中没有被重写(Override),方法表集合中就不会出现来自父类的方法信息,但可能出现编译器自动添加的方法,最典型的便是类构造器“<clinit>”方法和实例构造器"<init>"方法。
在Java语言中,重载(Overload)一个方法:
1、要与原方法具有相同的简单名称。
2、要与原方法有不同的特征签名。
Java代码的方法特征签名只包括方法名称、参数顺序及参数类型;而字节码的特征签名还包括方法返回值以及受查异常表。
在Class文件、字段表、方法表都可以携带自己的属性表集合,用于描述某些场景专有的信息。
与Class文件中其他的数据项目要求严格的顺序、长度和内容不同,属性表集合的限制稍微宽松了一些,不再要求各个属性表具有严格顺序,并且只要不与已有属性名重复,任何人实现的编译器都可以想属性表中写入自己定义的属性信息,Java虚拟机运行时会忽略掉它不认识的属性。最新的《Java虚拟机规范(Java SE 7)》版中,属性项已经增加到21项。下边将介绍一些关键常用的属性。
属性名称 |
使用位置 |
含义 |
Code |
方法表 |
Java代码编译成的字节码指令 |
ConstantValue |
字段表 |
final关键字定义的常量值 |
Deprecated |
类、方法表、字段表 |
被声明为deprecated的方法和字段 |
Exceptions |
方法表 |
方法抛出的异常 |
EnclosingMethod |
类文件 |
仅当一个类为局部类或者匿名类时才能拥有这个属性,这个属性用于标识这个类所在的外围方法 |
InnerClasses |
类文件 |
内部类列表 |
LineNumberTable |
Code属性 |
Java源码的行号与字节码指令的对应关系 |
LocalVariableTable |
Code属性 |
方法的局部变量描述 |
StackMapTable |
Code属性 |
JDK1.6中新增的属性,供新的类型检查验证器(Type Checker)检查和处理目标方法的局部变量和操作数栈所需要的类型是否匹配 |
Signature |
类、方法表、字段表 |
JDK1.5中新增的属性,这个属性用于支持泛型情况下的方法签名,在Java语言中,任何类、接口、初始化方法或成员的泛型签名如果包含了类型变量(Type Variables)或参数化类型(Parameterized Types),则Signature属性会为它记录泛型签名信息。由于Java的泛型采用擦除法实现,在为了避免类型信息被擦除后导致签名混乱,需要这个属性记录泛型中的相关信息 |
SourceFile |
类文件 |
记录源文件名称 |
SourceDebugExtension |
类文件 |
JDK1.6中新增的属性,SourceDebugExtension属性用于存储额外的调试信息。譬如在进行JSP文件调试时,无法通过Java堆栈来定位JSP文件的行号,JSR-45规范为这些非Java语言编写,却需要编译成字节码并运行在Java虚拟机中的程序提供了一个进行调试的标准机制,使用SourceDebugExtension属性就可以用于存储这个标准所新加入的调试信息 |
Synthetic |
类、方法表、字段表 |
标识方法或字段为编译器自动生成的 |
LocalVariableTypeTable |
类 |
JDK1.5中新增的属性,它使用特征签名代替描述符,是为了引入泛型语法之后能描述泛型参数化类型而添加 |
RuntimeVisibleAnnotations |
类、方法表、字段表 |
JDK1.5新增的属性,为动态注解提供支持。RuntimeVisibleAnnotations属性用于注明哪些注解是运行时(实际上运行时就是进行反射调用)可见的 |
RuntimeInvisibleAnnotations |
类、方法表、字段表 |
JDK1.5新增的属性,与RuntimeVisibleAnnotations属性作用刚好相反,用于指明哪些注解是运行时不可见的 |
RuntimeVisibleParameterAnnotations |
方法表 |
JDK1.5新增的属性,作用与RuntimeVisibleAnnotations属性类似,只不过作用对象为方法参数 |
RuntimeInvisibleParameterAnnotations |
方法表 |
JDK1.5新增的属性,作用与RuntimeInvisibleAnnotations属性类似,只不过作用对象为方法参数 |
AnnotationDefault |
方法表 |
JDK1.5新增的属性,用于记录注解类元素的默认值 |
BootstrapMethods |
类文件 |
JDK1.7中新增的属性,用于保存invokedynamic指令引用的引导方法限定符 |
对于每个属性,它的名称需要从常量池引用一个CONSTANT_Utf8_info类型的常量来表示,而属性值的结构则完全自定义的,只需要通过一个u4的长度属性去说明属性值所占用的位数即可。一个符合规则的属性表应该满足以下定义结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u1 |
info |
attribute_length |
Java程序方法体中的代码经过Javac编译处理后,最终变为字节码指令存储在Code属性中,Code属性出现在方法表的属性集合之中。但并非所有方法表都有Code属性,例如抽象类或接口。
Code属性表的结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
max_stack |
1 |
u2 |
max_locals |
1 |
u4 |
code_length |
1 |
u1 |
code |
code_length |
u2 |
exception_table_length |
1 |
exception_info |
exception_table |
exception_table_length |
u2 |
attribute_count |
|
attribute_info |
attributes |
attribute_count |
attribute_name_index所指向的CONSTANT_Utf8_info类型常量的值固定为“Code”。
attribute_length标识属性值的总长度。
max_stack代表了操作数栈(Operand Stacks)深度的最大值。
max_locals代表了局部变量所表示的存储空间(单位是Slot),一个Slot占用32个字节,double或long这种64位的数据类型则需要两个Slot来存放。方法参数、局部变量、异常变量都需要使用局部变量表来存放。Javac编译器会根据变量的作用域来分配Slot,每个Slot在整个线程周期可以重复使用,然后根据变量数和作用域计算出max_locals的大小。
code_length和code是用来存储Java源程序编译后产生的字节码指令,code_length代表字节码长度,既然叫字节码,每个指令就是一个u1类型的单字节,当虚拟机读取到code中的一个字节码时,就可以找出这个字节码代表的是什么指令,并且可以知道这条指令后面是否需要跟随参数,以及参数应当如何理解。一个字节取值范围为0~255,所以字节码指令肯定不会超过256个指令,目前Java虚拟机规范定义了其中约200条编码值对应指令的含义。
因为code_length是一个u4类型,所以理论上每个方法的字节长度不能超过2^23-1,但是虚拟机规范中明确限定了一个方法不能超过65535条字节码指令,即实际只用到了u2的长度。关于虚拟机字节码执行的讲解将在下一篇博客中详解。
在字节码指令之后的是这个方法的显式异常处理表(下文简称异常表)集合,异常表对于Code属性来说并不是必须存在的。
类型 |
名称 |
数量 |
u2 |
start_pc |
1 |
u2 |
end_pc |
1 |
u2 |
handle_pc |
1 |
u2 |
catch_type |
1 |
这些字段的含义是如果当字节码在第start_pc行到end_pc行之间(不含第end_pc行)出现了类型为catch_type或其子类异常(catch_type为指向一个CONSTANT_Class_info型常量的索引),则转到第handler_pc行继续处理。当catch_type的值为0时,代表任意异常情况都需要转向到handler_pc处进行处理。
编译器使用异常表而不是简单的跳转命令来实现Java异常及finally处理机制;在JDK1.4.2之前的Javac编译器采用了jsr和ret指令实现finally语句,但在1.4.2之后已经改为编译器自动在每段可能的分支路径之后都将finally语句块的内容冗余生成一遍来实现finally语义;在1.7中已经完全禁止jsr和ret指令,如果遇到这两条指令,虚拟机会在类加载的字节码校验阶段抛出异常。
下面举一个异常表的例子(出自深入理解Java虚拟机一书):
public class TestClass
{
public int inc()
{
int x;
try{
x = 1;
return x;
}
catch(Exception e)
{
x = 2;
return x;
}
finally
{
x = 3;
}
}
}
编译后的字节码及异常表:
Code:
Stack=1, Locals=5, Args_size=1
0: iconst_1 //try块中的x=1
1: istore_1
2: iload_1 //保存x到returnValue中,此时x=1
3: istore 4
5: iconst_3 //finaly块中的x=3
6: istore_1
7: iload 4 //将returnValue中的值放到栈顶,准备给ireturn返回
9: ireturn //返回方法的int元素(返回栈顶元素1)
10: astore_2 //给catch中定义的Exception e赋值,存储在Slot 2中
11: iconst_2 //catch块中的x=2
12: istore_1
13: iload_1 //保存x到returnValue中,此时x=2
14: istore 4
16: iconst_3 //finally块中的x=3
17: istore_1
18: iload 4 //将returnValue中的值放到栈顶,准备给ireturn返回
20: ireturn //返回方法的int元素(返回栈顶元素2)
21: astore_3 //如果出现了不属于Exception及其子类的异常才会走到这里
22: iconst_3 //finally块中的x=3
23: istore_1
24: aload_3 //将异常放置到栈顶
25: athrow //抛出异常
Exception table:
from to target type
5 10 Class java/lang/Exception //第0到第5行如果抛出Exception异常则跳转到第10行
5 21 any //第0到第5行如果抛出任何异常则跳转到第21行
16 21 any //第10到第16行如果抛出任何异常则跳转到第21行
编译器为这段Java源码生成了3条异常表记录,对应3条可能出现的代码执行路径。从Java代码的语义上讲,这3条执行路径分别为:
字节码0~4行所做的操作数就是将整数1赋值给变量x,并将此时x的值复制一份到最后一个本地变量表的Slot中(这个Slot里面的值在ireturn指令执行前将会被重新读到栈顶,作为方法返回值使用,这里暂且就记为returnValue)。如果这时没有出现异常,则会继续走到第5~9行,将变量x赋值为3,然后将之前保存到returnValue中的整数1读入到操作栈顶,最后ireturn指令会以int形式放回操作栈顶中的值,方法结束。如果出现了异常,PC寄存器指针转到第10行,第10~20行所做的事情是将2赋值给变量x,然后将变量x此时的赋值给returnValue,最后再将变量x的值改为3。方法返回前同样将returnValue中保留的整数2读到操作栈顶。从第21行开始的代码,作用是将变量x的值赋为3,并将栈顶的异常抛出,方法结束。
这里的Exception属性是在方法表中与Code属性平级的一项属性,不要与前面刚刚讲解完的异常表产生混淆。Exception属性的作用是列举出方法中可能抛出的受查异常(Checked Exceptions), 也就是方法描述时在throws关键字后面列举的异常。
Exception属性表结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
number_of_exceptions |
1 |
u2 |
exception_index_table |
number_of_exceptions |
number_of_exceptions表示方法可能抛出number_of_exceptions种受查异常,每一种受查异常使用一个exception_index_table项表示,exception_index_table是一个指向常量池中CONSTANT_Class_info型常量的索引,代表该受查异常的类型。
LineNumberTable属性用于描述Java源码行号与字节码行号(字节码的偏移量)之间的对应关系。
LineNumberTable属性表结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
line_number_table_length |
1 |
line_number_info |
line_number_table |
line_number_table_length |
line_number_table是一个数量为line_number_table_length,类型为line_number_info的集合,line_number_info表包括了start_pc和line_number两个u2类型的数据项,前者是字节码行号,后者是Java源码行号。
LocalVariableTable属性用于描述栈帧中局部变量表中的变量与Java源码中定义的变量之间的关系。
LocalVariableTable属性结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
local_varible_table_length |
1 |
local_variable_info |
local_variable_table |
local_varible_table_length |
local_variable_info项目代表了一个栈帧与源码中的局部变量的关联,结构见下表:
类型 |
名称 |
数量 |
u2 |
start_pc |
1 |
u2 |
length |
1 |
u2 |
name_index |
1 |
u2 |
descriptor_index |
1 |
u2 | index | 1 |
start_pc和length属性分别代表了这个局部变量的生命周期开始的字节码偏移量及其作用范围覆盖的长度,两者结合起来就是这个局部变量在字节码之中的作用域范围。
name_index和descriptor_index都是指向常量池中CONSTANT_Utf8_info型常量的索引,分别代表了局部变量的名称及这个局部变量的描述符。
index是这个局部变量在栈帧局部变量表中Slot的位置。当这个变量数据类型是64位类型时(double和long),它占用的Slot为index和index+1两个
在JDK1.5引入泛型之后,LocalVariableTable属性增加了一个“姐妹属性”:LocalVariableTypeTable,这个新增属性的结构与LocalVariableTable非常相似,仅仅是把记录的字段描述符的descriptor_index替换成了字段的特征签名(Signature),对于非泛型来说,描述符和特征签名能描述的信息是基本一致的。
SourceFile属性用于记录生成这个Class文件的源码文件名称。
sourceFile属性结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
sourcefile_index |
1 |
sourcefile_index数据项是指向常量池中CONSTANT_Utf8_info型常量的索引,常量值是源码文件的文件名。
ConstantValue属性的作用是通知虚拟机自动为静态变量赋值。只有被static关键字修饰的常量(类变量)才可以使用这项属性。目前Sun Javac编译器的选择是:如果同时使用final和static来修饰一个变量,并且这个变量的数据类型是基本类型或者java.lang.String的话,就生成ConstantValue属性来进行初始化,如果这个变量没有被final修饰,或者并非基本类型及字符串,则将会选择在
对ConstantValue的属性值只能限于基本类型和String。
ConstantValue属性结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
constantvalue_index |
1 |
InnerClasses属性用于记录内部类与宿主类之间的关联。
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
number_of_classes |
1 |
inner_classes_info |
inner_classes |
number_of_classes |
number_of_classes代表需要记录多少个内部类信息。
inner_classes_info表的结构:
类型 |
名称 |
数量 |
u2 |
inner_class_info_index |
1 |
u2 |
outer_class_info_index |
1 |
u2 |
inner_name_index |
1 |
u2 |
inner_class_access_flags |
1 |
inner_class_info_index和outer_class_info_index分别代表了内部类和宿主类的符号引用。inner_name_index代表内部类的名称,inner_class_access_flags是内部类的访问标志。
两个属性都属于标志类型的布尔属性,只存在有和没有的区别,没有属性值的概念。Synthetic代表字段或者方法并不是有Java源码直接产生的,而是由编译器自行添加的。
StackMapTable属性在JDK1.6发布后增加到了Class文件规范中,它是一个复杂的变长属性,位于Code属性的属性表中。会在虚拟机类加载的字节码验证阶段被新类型检查验证器(Type Checker)使用,目的在于代替以前比较消耗性能的基于数据流分析的类型推导验证器。一个方法的Code属性最多只能有一个StackMapTable属性。
Signature属性在JDK1.5增加到Class文件规范之中,用于记录泛型签名信息。Java语言的泛型采用的是擦除法实现的伪泛型,缺点就是运行期做反射时无法获得到泛型信息,Signature属性就是为了弥补这个缺陷而增设的。
Signature属性的结构:
类型 |
名称 |
数量 |
u2 |
attribute_name_index |
1 |
u4 |
attribute_length |
1 |
u2 |
signature_index |
1 |
signature_index的值必须是一个对常量池的有效索引。常量池在该索引处的项必须是CONSTANT_Utf8_info结构,表示类签名、方法类型签名或字段类型签名。
BootstrapMethods属性在JDK1.7增加到Class文件规范之中的。它是一个复杂的变长属性,位于类文件的属性表中。用于保存invokedynamic指令引用的引导方法限定符。
目前Java无法生成InvokeDynamic指令和BootstrapMethods属性。
Java虚拟机指令:
指令的设计是逻辑功能点与数据类型的结合
JVM共有9种基本类型,对于基本类型 指令在设计的时候都用一个字母缩写来指代(boolean除外)
byte |
short |
int |
long |
float |
double |
char |
reference |
boolean |
---|---|---|---|---|---|---|---|---|
b |
s |
i |
l |
f |
d |
c |
a |
无 |
指令基本上就是围绕着上面的逻辑功能以及数据类型进行设计的
当然也有一些并没有明确用字母指代数据类型,比如arraylength 指令,并没有代表数据类型的特殊字符,操作数只能是一个数组类型的对象,另外还有一些,比如无条件跳转指令goto 则是与数据类型无关的。
push |
push |
按 推动 压入 |
load |
load |
加载 装载 |
const |
const |
常数,不变的 |
store |
store |
存储 保存到 |
add |
add |
加法 |
sub |
subduction |
减法 |
mul |
multiplication |
乘法 |
div |
division |
除法 |
inc |
increase |
增加 |
rem |
remainder |
取余 剩下的留下的 |
neg |
negate |
取反 否定 |
sh |
shift |
移位 移动变换 |
and |
and |
与 |
or |
or |
或 |
xor |
exclusive OR |
异或 |
2 |
to |
转换 转变 变成 |
cmp |
compare |
比较 |
return |
return |
返回 |
eq |
equal |
相等 |
ne |
not equal |
不相等 |
lt |
less than |
小于 |
le |
less than or equal |
小于等于 |
gt |
greater than |
大于 |
ge |
greater than or equal |
大于等于 |
if |
if |
条件判断 如果 |
goto |
goto |
跳转 |
invoke |
invoke |
调用 |
dup |
dump |
复制 拷贝 卸下 丢下 |
下表中最左边一列的T表示模板,只需要用数据类型的缩写,替换掉T 就可以得到对应的具体的指令
如果下表中为空,说明对这种数据类型不支持这种类型的操作
操作码/类型 |
byte |
short |
int |
long |
float |
double |
char |
reference |
---|---|---|---|---|---|---|---|---|
Tipush |
bipush |
sipush |
|
|
|
|
|
|
Tconst |
|
|
iconst |
lconst |
fconst |
dconst |
|
aconst |
Tload |
|
|
iload |
lload |
fload |
dload |
|
aload |
Tstore |
|
|
istore |
lstore |
fstore |
dstore |
|
astore |
Tinc |
|
|
iinc |
|
|
|
|
|
Taload |
baload |
saload |
iaload |
laload |
faload |
daload |
caload |
aaload |
Tastore |
bastore |
sastore |
iastore |
lastore |
fastore |
dastore |
castore |
aastore |
Tadd |
|
|
iadd |
ladd |
fadd |
dadd |
|
|
Tsub |
|
|
isub |
lsub |
fsub |
dsub |
|
|
Tmul |
|
|
imul |
lmul |
fmul |
dmul |
|
|
Tdiv |
|
|
idiv |
ldiv |
fdiv |
ddiv |
|
|
Trem |
|
|
irem |
lrem |
frem |
drem |
|
|
Tneg |
|
|
ineg |
lneg |
fneg |
dneg |
|
|
Tshl |
|
|
ishl |
lshl |
|
|
|
|
Tshr |
|
|
ishr |
lshr |
|
|
|
|
Tushr |
|
|
iushr |
lushr |
|
|
|
|
Tand |
|
|
iand |
land |
|
|
|
|
Tor |
|
|
ior |
lor |
|
|
|
|
Txor |
|
|
ixor |
lxor |
|
|
|
|
i2T |
i2b |
i2s |
|
i2l |
i2f |
i2d |
|
|
l2T |
|
|
l2i |
|
l2f |
l2d |
|
|
f2T |
|
|
f2i |
f2l |
|
f2d |
|
|
d2T |
|
|
d2i |
d2l |
d2f |
|
|
|
Tcmp |
|
|
|
lcmp |
|
|
|
|
Tcmpl |
|
|
|
|
fcmpl |
dcmpl |
|
|
Tcmpg |
|
|
|
|
fcmpg |
dcmpg |
|
|
if_TcmpOP |
|
|
if_icmpOP |
|
|
|
|
if_acmpOP |
Treturn |
|
|
ireturn |
lreturn |
freturn |
dreturn |
|
areturn |
从上表的空白处可以看得出来:大部分数据类型相关联的指令,都没有支持整数类型 byte char short ,而且没有任何指令支持boolean类型。
因为编译器会在编译期或者运行期 将byte 和short 类型的数据 带符号扩展 为相应的int类型数据。
类似的,boolean 和char类型数据零位扩展为相应的int类型数据,在处理boolean byte short char类型的数组时,也会转换为使用对应的int类型的字节码指令来处理
实际类型与运算类型的对应关系如下:
实际类型 |
运算类型 |
分类 |
---|---|---|
boolean |
int |
1 |
int |
int |
1 |
byte |
int |
1 |
short |
int |
1 |
int |
int |
1 |
float |
float |
1 |
reference |
reference |
1 |
returnAddress |
returnAddress |
1 |
long |
long |
2 |
double |
double |
2
|
一、加载存储指令
加载存储指令用于局部变量与操作数栈交换数据以及常量装载到操作数栈
1、将一个局部变量加载到操作栈:
iload、iload_
、lload、lload_ 、fload、fload 、dload、dload 、aload、aload
操作数为:局部变量的位置序号。序号从0开始 , 局部变量以slot为单位分配的。
将序号为操作数的局部变量slot 的值 加载到操作数栈。
指令可以读作:将第(操作数+1)个 X(i l f d a)类型局部变量,推送至栈顶。ps: 操作数+1 是因为序号是从0开始的
2、将一个数值从操作数栈存储到局部变量表:
istore、istore_
、lstore、lstore_ 、fstore、fstore_ 、dstore、dstore_ 、astore、astore_
操作数为:局部变量的位置序号。序号从0开始 , 局部变量以slot为单位分配的。
将操作数栈的值保存到序号为操作数的局部变量slot中
指令可以读作:将栈顶 X(i l f d a)类型的数值 保存到 第(操作数+1)个 局部变量中
3、将一个常量加载到操作数栈:
bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_、lconst_
、fconst_ 、dconst_
操作数:为将要操作的数值或者常量池行号
指令可以读作:将类型X的值xxx 推送至栈顶 或者是 将 行号为xxx的常量推送至栈顶
4、扩充局部变量表的访问索引的指令:wide
形如 xxx_
这一组指令都是某个带有一个操作数的通用指令(例如 iload)的特殊形式
对于这些特殊形式来说,他们表面上没有操作数,但是操作数隐含在指令里面了,除此之外,语义与原指令并没有任何的不同
(例如 iload_0 的语义与操作数为0时的iload 语义完全相同)
需要注意的是 _
都是直接只用原始形式 iload 4 不再使用_
对于虚拟机执行方法来说,操作数栈是工作区, 所以数据的流向是对于操作数栈来说的 。load就是局部变量数据加载到操作数栈 ,store就是从操作数栈存储到局部变量表。对于常量只有加载到操作数栈进行使用,没有存储的说法。
load 和 store的操作数都是局部变量的位置,对于操作数栈与常量交换数据,需要确定的是到底加载哪个值到操作数栈或者是从常量池哪行加载,所以加载常量到操作数栈的操作数 是 具体的数值 或者常量池行号。
常量加载到操作数栈比较特殊单独说明他根据<数据类型>以及<数据的取值范围>使用了不同的方式const指令,该系列命令主要负责把简单的数值类型送到栈顶。比如对应int型该方式只能把-1,0,1,2,3,4,5(分别采用iconst_m1,iconst_0, iconst_1, iconst_2, iconst_3, iconst_4, iconst_5)。
push指令
该系列命令负责把一个整型数字(长度比较小)送到到栈顶。 该系列命令有一个参数,用于指定要送到栈顶的数字。 注意该系列命令只能操作一定范围内的整形数值,超出该范围的使用将使用ldc命令系列。
bipush :将单字节的常量值(-128~127)推送至栈顶 0x11
sipush :将一个短整型常量值(-32768~32767)推送至栈顶
ldc系列
该系列命令负责把数值常量或String常量值从常量池中推送至栈顶。
该命令后面需要给一个表示常量在常量池中位置(编号)的参数 也就是行号,
哪些常量是放在常量池呢?
比如:
final static int id=32768; //32767+1 就不在sipush范围内了
final static float double=8.8
对于const系列命令和push系列命令操作范围之外的数值类型常量,都放在常量池中.
二、算数指令
运算后的结果自动入栈,运算或算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入到操作栈顶.
算术指令分为两种:
无论是哪种算术指令,都使用Java虚拟机的数据类型,由于没有直接支持byte、short、char和boolean类型的算术指令,使用操作int类型的指令代替。
三、类型转换指令
类型转换指令可以将两种不同的数值类型进行相互转换。这些转换操作一般用于实现用户代码中的显式类型转换操作,
或者用来解决字节码指令集不完备的问题。
因为数据类型相关指令无法与数据类型一一对应的问题,比如byte short char boolean使用int, 所以必须要转换。
分为宽化 和 窄化含义如字面含义,存储长度的变宽或者变窄宽化也就是常说的安全转换,不会因为超过目标类型最大值丢失信息。窄化则意味着很可能会丢失信息。
宽化指令和窄化指令的形式为 操作类型 2 (to) 目标类型 比如 i2l int 转换为long
宽化指令
窄化指令
四、对象的创建与访问
实例和数组都是对象但是Java虚拟机对类实例和数组的创建使用了不同的字节码指令
五、操作数栈管理指令
六、控制转移指令
七、方法调用与返回指令
八、异常处理指令
九、同步指令
class文件加深了解参考:https://www.bbsmax.com/A/xl56rAEo5r/