Java字节码的结构

参考《Java虚拟机规范JavaSE7版》的描述来看,每一个字节码文件其实都对应着全局唯一的一个类或者接口的定义信息。字节码文件采用的是一种类似于C语言结构体的伪结构来描述字节码文件格式。为了避免与类的字段、实例等概念产生混淆,本书将用于描述类结构格式的内容定义为项(item)

每一项都包括类型、名称以及该项的数量。类型可以是表明,也可以是“基本类型”。包含在字节码文件中,各项按照严格的顺序进行连续存放,其内部并不包含任何的分隔符区分段落。在此大家需要注意,这个结构体中只有两种数据结构,分别是无符号数和表,其中无符号数属于字节码文件中的“基本类型”,字节码文件中的无符号数有u1/u2/u4/u8,分别表示一个字节无符号类型、两个字节无符号类型、4个字节无符号类型、8个字节无符号类型。

表是由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表的后缀都是使用“_info”进行结尾,并且字节码文件实质上也就是一张表。每一个字节码文件对应着一个ClassFile的结构,如下所示:

Class{

u4              magic

u2              minor_version

u2             major_version

u2              constant_pool_count

cp_info          constant_pool[constant_pool_count-1]

u2              access_flags

u2              this_class

u2              super_class

u2              interfaces_count

u2              interfaces[interfaces_count]

u2              fields_count

field_info        fields[fields_count]

u2              methods_count

method_info     methods[methods_count]

u2              attributes_count

attribute_info     attributes[attributes_count]

}

关于ClassFile结构的描述信息,如下所示:

1)  magic 魔术字符

一个有效地字节码文件的前4个字节为0xCAFEBABE,(咖啡宝贝),也称之为魔术字符。JVM用魔术字符来校验一个目标class文件是否是合法的。

2)  minor_version(此版本号)和major_version(主版本号)

紧跟在magic之后的4个字节就是编译的次版本号和主版本号,他们共同构成了字节码文件的版本号。如果字节码文件的版本号超出了JVM所能够处理的有效范围,那么Java虚拟机将不会处理这个字节码文件。不过高版本的JVM却能向下兼容运行由低版本JDK编译的字节码文件。

3)  constant_pool_count(常量池计数器)和constant_pool(常量池)

在字节码文件中,紧跟在次版本号和主版本号之后的就是常量池计数器和常量池。常量池是字节码文件中非常重要的数据项,同时也是字节码文件中与其他项关联最大和占用字节码空间最大的数据项。常量池主要存放字面量(Literal)和符号引用(Symbolic References)两大类数据常量,其访问方式是通过索引来进行访问的,但由于常量池列表中的数量并不固定,因此在常量池之前就需要通过一个2个字节的常量池计数器来统计常量池列表中到底拥有多少常量项。在此大家注意,常量池计数器中的计数值并不是从0开始进行计数的,而从1开始,也就是说,如果常量池中有两个常量时,计数值为2。

常量池中存放的字面量由文字字符串、final常量值等构成,而符号引用则包括了类和接口的全限定名(Fully Qualified Name)、字段的名称和描述符(Descriptor),以及方法的名称和描述符。

4)  access_flags(访问标志)

紧跟在常量池之后的2个字节是访问标志,访问标志就是用于表示某个类或者接口的访问权限。比如:访问标志指明的是字节码文件中的类还是接口;使用的访问修饰符是哪一种,是否是由abstract关键字修饰的抽象类;如果是被abstract修饰的抽象类,不能再标记为final类型;接口类型同样也不允许被final修饰。访问标志的定义如下所示(仅列举2项,具体请看书):

访问标志

描述

ACC_PUBLIC

0x0001

声明为public,可以被包的类进行外访问

ACC_FINAL

0x0010

声明为final,不允许有派生类

5)  this_class(类索引)和super_class(超类索引)

紧跟在访问标志之后的4个字节就是类索引和超类索引,类索引和超类索引各自会通过索引指向常量池列表中的一个类型为CONSTANT_Class_info的常量项。CONSTANT_Class_info由tag和name_index两部分组成,tag是一个具有CONSTANT_Class_info值的常量,而name_index则是指向常量池列表中类型为CONSTANT_Utf8_info常量项的索引,通过这个索引即可成功获取到CONSTANT_Utf8_info常量项中的全限定名字符串,如下图所示。简单来说,类索引用于确定当前类的全限定名,而超类索引则用于确定当前类的超类的全限定名。

Java字节码的结构_第1张图片

6)  interfaces_count(接口计数器)和interface(接口表)

在类索引和超类索引之后的4个字节就是接口计数器和接口表。接口计数器用于表示当前类或者接口的直接超类接口数量。接口表实际上是一个数组集合,包含了当前类或者接口在常量池列表中直接超类接口的索引集合,通过这个索引即可确定当前类或者接口的超类接口的全限定名。

7)  fields_count(字段计数器)和fields(字段表)

在接口计数器和接口表之后就是字段计数器和字段表。字段计数器用于表示一个字节码文件中的field_info表总数,也就是一个类中类变量和实例变量的数量总和。而字段表实际上则是一个数组集合,字段表中的每一个成员都必须是一个field_info结构的数据项。简单来说,field_info用于表达一个字段的完整信息,比如字段的表示符、访问修饰符(public/private/protected)、是类变量还是实例变量(static 修饰符)、是否是常量(final修饰符)。字段表中所包含的字段信息仅限于当前类或接口的所属字段,并不包含继承超类后的字段信息。

8)  methods_count(方法计数器)和methods(方法表)

在字段计数器和字段表之后就是方法计数器和方法表。方法计数器用于表示一个字节码文件中的method_info表总数。而方法表实际上是一个数组集合,方法表中的每个成员都必须是一个method_info结构的数据项。简单来说,method_info用于表示当前类或者接口中某个方法的完整描述,比如方法标示符、方法的访问修饰符、方法的返回值类型以及方法的参数信息等。方法表中所包含的方法信息仅限于当前类或者接口中的所属方法,并不包含继承超类后的方法信息。

9)  attribute_count(属性计数器)和attributes(属性表)

在方法计数器和方法表之后的就是属性计数器和属性表。属性计数器用于表示当前字节码文件中的attribute_info表总数。而属性表同之前的字段表和方法表一样都是一个数组集合,属性表中的每一个成员都必须是一个attribute_info结构的数据项。每一个attribute_info表的第一项都是指向常量池列表中的CONSTANT_Utf8_info项的索引,该表给出了属性的名称。

属性可以出现在ClassFile表、字段表和方法表中,用以描述与其相关的信息,比如描述字节码文件中所定义的类和接口相关的信息、描述与字段相关的信息、描述与方法相关的信息。

摘自《Java虚拟机精讲》高翔龙

你可能感兴趣的:(Java字节码的结构)