代码编译的结果从本地机器码转变为字节码,是存储格式发展的一小步,却是编译发展的一大步。
在上计算机启蒙课时,老师曾跟我们讲过:“计算机只认识0 和 1,所以我们写的程序需要经编译器翻译成由0 和 1构成的二进制格式才能由计算机执行”。随着计算机发展至今,它仍然只能识别 0 和 1,但由于虚拟机以及大量建立在虚拟机之上的程序语言如雨后春笋般出现并蓬勃发展,将我们编写的程序编译成二进制本地机器码(Native Code)已不再是唯一选择。越来越多的程序语言选择与操作系统和机器指令集无关的、平台中立的格式作为程序编译后的存储格式。
JVM高级特性与实践(一):Java内存区域 与 内存溢出异常
JVM高级特性与实践(二):对象存活判定算法(引用) 与 回收
JVM高级特性与实践(三):垃圾收集算法 与 垃圾收集器实现
JVM高级特性与实践(四):内存分配 与 回收策略
JVM高级特性与实践(六):Class类文件的结构(访问标志,索引、字段表、方法表、属性表集合)
JVM高级特性与实践(七):九大类字节码指令集(实例探究 )
JVM高级特性与实践(八):虚拟机的类加载机制
JVM高级特性与实践(九):类加载器 与 双亲委派模式(自定义类加载器源码探究ClassLoader)
JVM高级特性与实践(十):虚拟机字节码执行引擎(栈帧结构)
JVM高级特性与实践(十一):方法调用 与 字节码解释执行引擎(实例解析)
JVM高级特性与实践(十二):Java内存模型 与 高效并发时的内外存交互(volatile变量规则)
JVM高级特性与实践(十三):线程实现 与 Java线程调度
JVM高级特性与实践(十四):线程安全 与 锁优化
Java在刚诞生的时候提出的宣传口号是“Write Once, Run Anywhere”(一次编写,到处运行),充分体现出了平台的限制性。在IT领域,各种不同的软件体系结构和不同的操作系统肯定会长期并存发展。“与平台无关”的理想最终实现在操作系统的应用层上:Sun公司以及其他虚拟机提供商发布了许多可以运行在各种不同平台上的虚拟机,这些虚拟机都可以载入和执行同一种平台无关的字节码,从而实现程序的“一次编写,到处运行”。
各种不同平台的虚拟机与所有平台都统一使用的程序存储格式——字节码(ByteCode)是构成平台无关性的基石,但本节的标题忽视了“平台”二字,因为虚拟机的另一种中立特性—–语言无关性越来越受到开发者重视。目前还是许多Java程序员认为Java虚拟机执行Java程序时理所当然的,但在Java发展之初,设计者就曾考虑并实现了让其他语言运行在Java虚拟机之上。
实现语言无关性的基础仍然是虚拟机和字节码存储格式,Java虚拟机不合包括Java在内的任何语言绑定,只与“Class文件”这种特定的二进制文件格式所关联,Class文件中包含了Java虚拟机指令集和符号表以及若干辅助信息。
基于安全方面的考虑,Java虚拟机规范要求在Class文件中使用许多强制性的语法和结构化约束,但任一门功能性语言都可以表示为一个能被Java虚拟机所接受的有效Class文件。
作为一个通用的、机器无关的执行平台,任何其他语言的实现者都可以将Java虚拟机作为语言的产品交付媒介。举个例子,例如使用Java编译器可以把Java代码编译为存储字节码的Class文件,使用JRuby等其他语言的编译器一样可以把程序代码编程成Class文件,虚拟机不关心Class的来源是何种语言,如下图所示:
Java语言中的各种变量、关键字和运算符号的语义最终都是由多条字节码命令组合而成的,因此字节码命令所提供的语义描述能力肯定会比Java语言本身更加强大。因此,有一些Java语言本身无法有效支持的语言特性不代表字节码本身无法有效支持,这也为其他语言实现一些有别于Java的语言特性提供基础。
任何一个Class文件都对应着唯一一个类或接口的定义信息,但反过来说,类或接口并不一定都得定义在文件里(例如类或接口也可以通过类加载器直接生成)。
(注意:本节中只是通俗地将任意一个有效的类或接口所应当满足的格式称为“Class文件格式”,实际上它不一定以磁盘文件的形式存在。)
Class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑排列在Class文件中,中间没有添加任何分隔符,这使得整个 Class文件中存储的内容几乎全部是程序运行的必要数据,没有空隙存在。当遇到需要占用8位字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储。
根据Java虚拟机规范的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:无符号数和表,后面的解析都要以这两种数据类型为基础,首先来了解相关概念:
无符号数:属于基本的数据类型,以u1、u2、u4、u8来分别代表 1个字节、2个字节、4个字节和 8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照 UTF-8编码构成字符串值。
表:有多个无符号或者其他表作为数据项构成的复合数据类型,所有表都习惯地以“_info”结尾。表用于描述有层次关系的复合结构的数据,整个Class文件本质上就是一张表,由以下数据项构成:
无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式,这时称这一系列连续的某一类型的数据为某一类型的集合。
最后再提及一点:Class的结构不像XML等描述语言,由于它没有任何分隔符号,所以在上表中的数据项,无论是顺序还是数量,甚至于数据存储的字节序(Byte Ordering)这样的细节,都是被严格限定的,哪个字节代表什么含义、长度多少、先后顺序都不可改变,后面的内容来讲解上表中各个数据项的具体含义。
(1)常量池概念
常量池可以理解为Class文件之中的资源仓库,它是Class文件结构中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一,同时它还是在Class文件中第一个出现的表类型数据项目。
(2)常量池容量计数值
由于常量池中的常量数量是不固定的,所以在常量池的入口需要放置一项u2 类型的数据,代表常量池容量计数值(constant_pool_count)。与Java中语言习惯不一样的是,此容量计数是从1而并非0开始的,举个例子,以下简单代码作为后续讲解的事例,代码如下:
package org.fenixsoft.clazz;
public class TestClass {
private int m;
public int inc() {
return m + 1;
}
}
上图显示的是使用十六进制编辑器WinHex打开Class文件结果:
(3)常量池容量计数值从1开始的原因
在Class文件格式规范规定中,设计者将第0项常量空出来是有考虑的,为了在于满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义,这种情况可用索引值0来表示。
Class文件中只有常量池的容量计数是从1开始的,对于其他集合类型,包括接口索引集合、字段表集合、方法表集合等的容量计数都与一般习惯相同,是从0开始的。
(1)常量组成
常量池中主要存放两大类常量:
字面量(Literal):字面量比较接近于Java语言层面的常量概念,如文本字符串、声明为final 的常量值等。
符号引用(Symbolic References):属于编译原理方面的概念,包括了以下三类常量:
Java代码在进行Javac编译时,并不像C和C++那样有“连接”这一步骤,而是在虚拟机加载Class文件的时候进行动态连接。即在Class文件中不会保存各个方法、字段的最终内存布局信息,因为这些字段、方法的符号引用不经过运行期转换的话无法得到真正内存入口地址,也就无法直接被虚拟机使用。当虚拟机运行时,需要从常量池获得对应的符号引用,再在类创建时或运行时解析、翻译到具体的内存地址中。
(2)常量类型大全
常量池中每一项常量都是一个表,共用14种表,都有一个共同特点,就是表开始的第一位是一个u1类型的标志位(tag),代表当前此常量值属于哪种常量类型,详细介绍查看下表:
如图可鉴,常量池时最繁琐的数据,因为这14种常量类型各自均有自己的结构。
(3)CONSTANT_Class_info 和 CONSTANT_Utf8_info类型
此时再查看常量池结构图,可得知常量池的第一项常量标志位(偏移地址:0x0000000A)是0x07,对应标识列查询可知此常量属于 CONSTANT_Class_info 类型,此类型的常量代表一个类或者接口的符号引用,它的结构比较简单,查看下图:
CONSTANT_Class_info型结构组成:
例子中的name_index 值(偏移地址:0x0000000B)为0x0002,即是指向了常量池中的第二项常量,查看第二项常量的标志位(地址:0x0000000D)是0x01,查找项目类型大全对应确实是CONSTANT_Utf8_info 类型,查看其结构:
CONSTANT_Utf8_info型结构组成:
length值说明了这个UTF-8编码的字符串长度字节,它后面紧跟的长度为length字节的连续数据是一个使用UTF-8缩略编码表示的字符串。
(4)UTF-8缩略码与普通UTF-8编码的区别
从“\u0001”到“\u007f”之间的字符(相当于1~127的ASCII码)的缩略编码使用一个字节表示,从“\u0080”到“\u07ff”之间的所有字符的缩略编码用两个字节表示,从“\u0800”到“\uffff”之间的所有字符的缩略编码就按照普通UTF-8编码规则使用三个字节表示。
(5)注意
由于Class文件中方法、字段等都需要引用CONSTANT_Utf8_info型常量来描述名称,所以它的最大长达也就是Java中方法、字段名的最大长度。而这里最大长度就是length的最大值,即u2 类型能表达的最大值65535。所以Java程序中如果定义了超过64KB英文字符的变量或方法名,将会无法编译。
(6)例子中的字符串结构解密
本例中字符串的length值(偏移地址:0x0000000E)为0x001D,也就是长29字节,往后29字节正好都在1~127的ASCII码范围以内,内容为“org/fenixsoft/clazz/TestClass”,换算结果如图中选中部分:
(1)通过javap工具获取字节码内容
以上内容分析了 TestClass.class 常量池中21个常量的2个,其余的19个常量都可以通过类似的方法计算出来,由于计算过程太多,可使用计算机代替计算,在JDK的bin目录中专门用于分析Class文件字节码的工具:javap,下图是使用javap的-verbose
参数输出的TestClass.class文件字节码内容(省略了常量池以外的信息):
d:\>javap -verbose Test
Compiled from "Test.java"
public class com.test.Test extends java.lang.Object
SourceFile: "Test.java"
minor version: 0
major version: 49
Constant pool:
const #1 = class #2; // com/test/Test
const #2 = Asciz com/test/Test;
const #3 = class #4; // java/lang/Object
const #4 = Asciz java/lang/Object;
const #5 = Asciz m;
const #6 = Asciz I;
const #7 = Asciz ;
const #8 = Asciz ()V;
const #9 = Asciz Code;
const #10 = Method #3.#11; // java/lang/Object."":()V
const #11 = NameAndType #7:#8;// "":()V
const #12 = Asciz LineNumberTable;
const #13 = Asciz LocalVariableTable;
const #14 = Asciz this;
const #15 = Asciz Lcom/test/Test;;
const #16 = Asciz getM;
const #17 = Asciz ()I;
const #18 = Field #1.#19; // com/test/Test.m:I
const #19 = NameAndType #5:#6;// m:I
const #20 = Asciz SourceFile;
const #21 = Asciz Test.java;
从以上代码清单可看出,计算机已经帮我们将整个常量池的21项都计算出来,第1、2项常量的计算结果与之前手工计算的一致。还有一些陌生的常量,例如“I”、“V”、“”等,属于其它表(字段表、方法表、属性表等)引用。它们用来描述一些不方便使用“固定字节”进行表达的内容。譬如描述方法的返回值是什么?有几个参数?每个参数类型是什么?因此Java中的“类”是无穷无尽的,无法通过简单的无符号字节来描述一个方法用了什么类,因此在描述这些方法的信息需要引用常量中的符号进行表达。
(2) 常量项结构表
最后总结这14种常量项的结构定义如下所示:
Class文件是Java虚拟机执行引擎的数据入口,也是Java技术体系的基础构成之一,所以了解Class文件的结构堆后面进一步了解虚拟机执行引擎有很重要的意义。
以上从基础带领学习Class类文件在JVM中的使用,和Class类文件结构中重要的一块 —— 常量池,从代码实践的角度推理了常量池中的2个常量,但是远没有结束,在使用Javap命令输出的常量表中出现了一些陌生的常量,属于字段表、方法表、属性表引用,在下一篇博文中详细介绍。
Class类文件的结构这一章的内容属于“虚拟机执行子系统”部分,比起前面几篇博文也许略显枯燥,但是为后续 虚拟机类记载机制等底层学习打下良好的基础,仍旧是不可或缺的,任重而道远。
若有错误,欢迎指教~