从字节码角度剖析Java类文件

1 Java类文件简析

所谓 Java 类文件,就是通常用 javac 编译器产生的 .class 文件。这些文件具有严格定义的格式。Java 源文件经过 javac 编译器编译之后,将会生成对应的二进制文件。

Java 能够实现"一次编译,到处运行”,靠的是 class 文件的功劳。无论是哪种平台(如:Mac、Windows、Linux 等),只要安装了虚拟机都可以直接运行字节码。

有了字节码,也就解除了 Java 虚拟机和 Java 语言之间的耦合。目前 Java 虚拟机已经可以支持很多除 Java 语言以外的其他语言了,如 Groovy、JRuby、Jython、Scala 等,因为这些语言经过编译之后也可以生成能够被 JVM 解析并执行的字节码文件。而虚拟机并不关心字节码是由哪种语言编译而来的。如下图所示:

如果从纵观的角度来看 class 文件,class 文件里只有两种数据结构:无符号数和表。

  • 无符号数:属于基本的数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者字符串(UTF-8编码)。
  • :表是由多个无符号数或者其他表作为数据项构成的复合数据类型,class文件中所有的表都以“_info”结尾。其实,整个 Class 文件本质上就是一张表。在一张表中可以包含其他无符号数和其他表格。

2 class 文件结构

无符号数和表组成了 class 中的各个结构,这些结构按照预先规定好的顺序紧密的从前向后排列,相邻的项之间没有任何间隙。如下图所示:


当 JVM 加载某个 class 文件时,JVM 就是根据上图中的结构去解析 class 文件,加载 class 文件到内存中,并在内存中分配相应的空间。具体某一种结构需要占用大多空间,可以参考下图:

3 实例分析

接下来通过一个 Java 代码实例来详细分析下class 文件结构,Test.java代码如下:

import java.io.Serializable;

public class Test implements Serializable, Cloneable{
      private int num = 1;
      
      public int add(int i) {
           int j = 10;
           num = num + i;
           return num;
      }
}

经过 javac 编译后,得到的类文件Test.class,用vim查看HelloWorld.class

vim HelloWorld.class

打开文件后输入

:%!xxd

按回车即可看到如下一串串十六进制符号


该文件中是由十六进制符号组成的,每两个字符代表一个字节,这一段十六进制符号组成的长串是严格遵守 Java 虚拟机规范。接下来就一步一步看下JVM是如何解析它们的.

魔数 magic number

在class文件开头的四个字节是class文件的魔数,它是一个固定的值--0XCAFEBABE。魔数是class文件的标志,也就是说它是判断一个文件是不是class格式文件的标准,如果开头四个字节不是 0XCAFEBABE, 那么就说明它不是 class 文件, 不能被 JVM 识别或加载。

版本号

紧跟在魔数后面的两个字节代表当前 class 文件的版本号。前两个字节 0000 代表次版本号(minor_version),后两个字节 0034 是主版本号(major_version),对应的十进制值为 52,也就是说当前 class 文件的主版本号为 52,次版本号为 0。所以综合版本号是 52.0,也就是 jdk1.8.0。

常量池
紧跟在版本号之后的是一个叫作常量池的表(cp_info)。在常量池中保存了类的各种相关信息,比如类的名称、父类的名称、类中的方法名、参数名称、参数类型等,这些信息都是以各种表的形式保存在常量池中的。

常量池中的每一项都是一个表,其项目类型共有 14 种,如下表所示:


可以看出,常量池中的每一项都会有一个u1大小的tag值。tag值是表的标识,JVM解析class文件时,通过这个值来判断当前数据结构是哪一种表。以上14种表都有自己的结构,我们就以 CONSTANT_Class_info 和 CONSTANT_Utf8_info 这两张表举例说明,因为其他表也基本类似。

首先,CONSTANT_Class_info 表具体结构如下所示:

table CONSTANT_Class_info {
    u1  tag = 7;
    u2  name_index;
}
  • tag:占用一个字节大小。值为 7,查看上面标识位为7的表是CONSTANT_Class_info 类型表。
  • name_index:是一个索引值,可以将它理解为一个指针,指向常量池中索引为 name_index 的常量表。比如 name_index = 2,则它指向常量池中第 2 个常量。

接下来再看 CONSTANT_Utf8_info 表具体结构如下:

table CONSTANT_utf8_info {
    u1  tag;
    u2  length;
    u1[] bytes;
}
  • tag:值为1,表示是 CONSTANT_Utf8_info 类型表。
  • length:length 表示 u1[] 的长度,比如 length=5,则表示接下来的数据是 5 个连续的 u1 类型数据。
  • bytes:u1 类型数组,长度为上面第 2 个参数 length 的值。

引申:String长度最大是多少
在java代码中声明的String字符串最终在class文件中的存储格式就 CONSTANT_utf8_info。因此一个字符串最大长度也就是u2所能代表的最大值65536个,但是需要使用2个字节来保存 null 值,因此一个字符串的最大长度为 65536 - 2 = 65534(字符串最大长度为65534个字节,并不代表一个字符串中就可以保存65534个字符。因为在utf-8编码下,一个数字和一个英文字母占一个字节,但是一个汉字却可以占用2~4个字节。因此如果使用字面量的方式声明中文字符串的长度会远远小于65534。),这种String长度的限制是编译期的限制。

那么运行时的最大长度是多少呢?
String内部是以char数组的 value 存储的,数组的长度是int类型的 count,那么String允许的最大长度就是Integer.MAX_VALUE(2147483647) 了。java中一个char占2个字节,也就是16位。String的运行时最大占用空间计算公式如下:


运行时大概需要约4GB的内存才能存储最大长度的字符串。


在常量池内部的表中也有相互之间的引用。用一张图来理解 CONSTANT_Class_info 和 CONSTANT_utf8_info 表格之间的关系,如下图所示:


理解了常量池内部的数据结构之后,接下来就看一下实例代码的解析过程。因为开发者平时定义的 Java 类各式各样,类中的方法与参数也不尽相同。因为开发者平时定义的Java类各式各样,类中的方法与参数也不尽相同。所以常量池的元素数量也就无法固定,因此class文件在常量池的前面使用2个字节的容量计数器,用来代表当前类中常量池的大小。如下图所示:



红色框中的001d转化为十进制就是29,也就是说常量计数器的值为29。其中下标为0的常量被JVM留作其他特殊用途,因此Test.class中实际的常量池大小为这个计数器的值减1,也就是 28个。

第一个常量,如下所示:


0a转化为10进制后为10,通过查看常量池14种表格图中,可以查到tag=10的表类型为CONSTANT_Methodref_info,因此常量池中的第一个常量类型为方法引用表。其结构如下:

CONSTANT_Methodref_info {
    u1 tag = 10;
    u2 class_index;        指向此方法的所属类
    u2 name_type_index;    指向此方法的名称和类型
}

可以看到 class_index 与 name_type_index 都是 u2 类型的无符号数,也就是说在“0a”之后的 2 个字节指向这个方法是属于哪个类,紧接的 2 个字节指向这个方法的名称和类型。它们的值分别是:

  • 0006:十进制 6,表示指向常量池中的第 6 个常量。
  • 0015:十进制 21,表示指向常量池中的第 21 个常量。

至此,第 1 个常量就解读完毕了。紧接着的就是第 2 个常量,如下所示:


tag 09 表示是字段引用表 CONSTANT_FIeldref_info ,其结构如下:

CONSTANT_Fieldref_info{
    u1 tag;
    u2 class_index;        指向此字段的所属类
    u2 name_type_index;    指向此字段的名称和类型
}

同样也是 4 个字节,前后都是两个索引。

  • 0005:指向常量池中第 5 个常量。
  • 0016:指向常量池中第 22 个常量。

到现在为止我们已经解析出了常量池中的两个常量。剩下的 21 个常量的解析过程也大同小异,这里就不一一解析了。实际上我们可以借助 javap 命令来帮助我们查看 class 常量池中的内容:

javap -v Test.class

上述命令执行后,显示结果如下:


正如我们刚才分析的一样,常量池中第一个常量是 Methodref 类型,指向下标 6 和下标 21 的常量。其中下标 21 的常量类型为 NameAndType,它对应的数据结构如下:

CONSTANT_NameAndType_info{
    u1 tag;
    u2 name_index;    指向某字段或方法的名称字符串
    u2 type_index;    指向某字段或方法的类型字符串
}

而下标在21的NameAndType的name_index和type_index分别指向了13和14,也就是“”和“()V”。因此最终解析下来常量池中第 1 个常量的解析过程以及最终值如下图所示:


仔细解析层层引用,最后我们可以看出,Test.class 文件中常量池的第 1 个常量保存的是 Object 中的默认构造器方法。

访问标志(access_flags)

紧跟在常量池之后的常量是访问标志,占用两个字节,如下图所示:


访问标志代表类或者接口的访问信息,比如:该 class 文件是类还是接口,是否被定义成 public,是否是 abstract,如果是类,是否被声明成 final 等等。各种访问标志如下所示:


我们定义的Test.java是一个普通Java类,不是接口、枚举或注解。并且被public修饰但没有被声明为final和abstract,因此它所对应的access_flags为0021(0X0001 和 0X0020 相结合)。

类索引、父类索引与接口索引计数器

在访问标志后的 2 个字节就是类索引,类索引后的 2 个字节就是父类索引,父类索引后的 2 个字节则是接口索引计数器。如下图所示:


可以看出类索引指向常量池中的第 5 个常量,父类索引指向常量池中的第 6 个常量,并且实现的接口个数为 2 个。再回顾下常量池中的数据:


从图中可以看出,第5个常量和第6个常量均为CONSTANT_Class_info表类型,并且代表的类分别是“Test”和“Object”。再看接口计数器,因为接口计数器的值是2,代表这个类实现了 2 个接口。查看在接口计数器之后的 4 个字节分别为:

  • 0007:指向常量池中的第 7 个常量,从图中可以看出第 7 个常量值为"Serializable"。
  • 0008:指向常量池中的第 8 个常量,从图中可以看出第 8 个常量值为"Cloneable"。

综上所述,可以得出如下结论:当前类为 Test 继承自 Object 类,并实现了“Serializable”和“Cloneable”这两个接口。

字段表

紧跟在接口索引集合后面的就是字段表了,字段表的主要功能是用来描述类或者接口中声明的变量。这里的字段包含了类级别变量以及实例变量,但是不包括方法内部声明的局部变量。

同样, 一个类中的变量个数是不固定的,因此在字段表集合之前还是使用一个计数器来表示变量的个数,如下所示:

0002 表示类中声明了 2 个变量(在 class 文件中叫字段),字段计数器之后会紧跟着 2 个字段表的数据结构。

字段表的具体结构如下:

CONSTANT_Fieldref_info{
    u2  access_flags    字段的访问标志
    u2  name_index          字段的名称索引(也就是变量名)
    u2  descriptor_index    字段的描述索引(也就是变量的类型)
    u2  attributes_count    属性计数器
    attribute_info
}

继续解析 Text.class 中的字段表,其结构如下图所示:


字段访问标志

对于 Java 类中的变量,也可以使用 public、private、final、static 等标识符进行标识。因此解析字段时,需要先判断它的访问标志,字段的访问标志如下所示:


字段表结构图中的访问标志的值为0002,代表它是private类型。变量名索引指向常量池中的第9个常量,变量名类型索引指向常量池中第10个常量。第9和第10个常量分别为“num”和“I”,如下所示:


因此可以得知类中有一个名为 num,类型为 int 类型的变量。对于第 2 个变量的解析过程也是一样,就不再赘复。

注意:

  • 字段表集合中不会列出从父类或者父接口中继承而来的字段。
  • 内部类中为了保持对外部类的访问性,会自动添加指向外部类实例的字段。

方法表

字段表之后跟着的就是方法表常量。方法表常量应该是以一个计数器开始的,因为一个类中的方法数量是不固定的,如图所示:


上图表示 Test.class 中有两个方法,但是我们只在 Test.java 中声明了一个 add 方法,这是为什么呢?这是因为默认构造器方法也被包含在方法表常量中。

方法表的结构如下所示:

CONSTANT_Methodref_info{
    u2  access_flags;        方法的访问标志
    u2  name_index;          指向方法名的索引
    u2  descriptor_index;    指向方法类型的索引
    u2  attributes_count;    方法属性计数器
    attribute_info attributes;
}

可以看到,方法也是有自己的访问标志,具体如下:


我们主要来看下 add 方法,具体如下:

从图中我们可以看出 add 方法的以下字段的具体值:

  • access_flags = 0X0001 也就是访问权限为 public。
  • name_index = 0X0011 指向常量池中的第 17 个常量,也就是“add”。
  • type_index = 0X0012 指向常量池中的第 18 个常量,也即是 (I)。这个方法接收 int 类型参数,并返回 int 类型参数。

属性表

在之前解析字段和方法的时候,在它们的具体结构中我们都能看到有一个叫作 attributes_info 的表,这就是属性表。

属性表并没有一个固定的结构,各种不同的属性只要满足以下结构即可:

CONSTANT_Attribute_info{
    u2 name_index;
    u2 attribute_length length;
    u1[] info;
}

JVM 中预定义了很多属性表,这里重点讲一下 Code 属性表。

我们可以接着刚才解析方法表的思路继续往下分析:


可以看到,在方法类型索引之后跟着的就是“add”方法的属性。0X0001 是属性计数器,代表只有一个属性。
0X000f 是属性表类型索引,通过查看常量池可以看出它是一个 Code 属性表,如下所示:


Code 属性表中,最主要的就是一些列的字节码。通过 javap -v Test.class 之后,可以看到方法的字节码,如下图显示的是 add 方法的字节码指令:

JVM 执行 add 方法时,就通过这一系列指令来做相应的操作。

你可能感兴趣的:(从字节码角度剖析Java类文件)