Class文件中存储着Java虚拟机指令集和符号表以及若干辅助信息。它使用的是一种平台无关的字节码储存格式,不同的虚拟机实现都可以载入执行这种平台无关的字节码。Java虚拟机不与任何语言绑定,只与Class文件这种特定二进制文件格式关联,原则上任何语言都可以编译成Class文件在Java虚拟机上运行。
Class文件格式采用一种类似C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:无符号数和表。
无符号数属于基本数据类型,以u1,u2,u4,u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
表是由多个无符号数或者其他表作为数据项构成的复合数据类型。表用于描述有层次关系的复合结构的数据,整个Class文件本质上就是一张表。Class中以_info结尾代表一张表。
Class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格的按照顺序紧凑的排列在Class文件中。当遇到占用8字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储。Class内部不包含任何分隔符,数据存储顺序数量都被严格限定,不允许任何改动。下面看看具体数据项的含义:
每个Class文件的头4个字节称为魔数(Magic Number),它唯一作用就是用来确定文件是否能被虚拟机接受。
很多文件存储标准中都用魔数进行身份标识,如图片gif,jpeg都在文件头部中存储着魔数。使用魔数而不是用扩展名来进行识别主要是基于安全考虑,因为扩展名可以被随意改动。
接下来的4个字节存储着Class文件的版本号,第五第六个字节为次版本号(Minor Version),第七第八为主版本号(Major Version)。版本号主要用于版本控制,高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件。
紧接着版本号之后的就是常量池入口,常量池入口后面还必须有一个u2数据项作为常量池容量计数器(因为常量池数量不固定)。
常量池是一个表类型的数据项,相当于Class文件的资源仓库,与Class文件其他项目关联最多,占用Class空间最大的数据项之一,且是第一个出现的表类型数据项目。
常量池主要存储两大类常量:字面量(Literal)和符号引用(Symbolic References)
字面量相当于Java语言中的常量概念,比如字符串,声明为final的常量值。
符号引用则属于编译原理方面的概念包括三类常量:
Class文件不会保存各个方法字段的最终内存布局信息,因为这些字段、方法和符号引用不经过运行期转换(动态连接)的话无法得到真正内存入口地址,也就无法被虚拟机使用。当虚拟机运行时,需要从常量池获得对应的符号引用,再在类创建或运行时解析翻译到具体的内存地址之中。
常量池中的每一项常量都是一个表(JDK1.7中有14种)。包括UTF-8编码的字符串表,整型字面量表,浮点型字面量表,长整型字面常量表,类和接口的符号引用表,字段符号引用表,类中的方法符号引用表,接口中方法符号引用表等等。这些表都会有各自不同的结构。
常量池之后就是由两个字节代表的访问标识(access flags)这些标识用于识别一些类或者接口层次的访问信息,包括这个Class是类还是接口;是否定义为public;是否定义为abstract类型;是否被final修饰。
访问标志位之后就是u2类型的类索引,父类索引和接口索引集合。Class文件由这三项数据确定这个类的继承关系。这三项数据(u2类型的索引值)各指向类型为CONSTANT_Class_info的类描述符常量。
字段表用于描述接口或者类中声明的变量。字段(field)包括类级变量以及实例级变量,但不包括在方法内部声明的局部变量。字段表中字段的各种描述信息(作用域比如public,private,是否被final,static修饰,是否可序列化等)均使用标志位表示,名称则引用常量池中的常量来描述。
在方法表中,方法的描述和字段的描述基本一致,依次包括访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表集合(attributes)几项。
方法中的代码经过编译器编译成字节码指令后存放在方法属性表集合中一个名为“Code”的属性里面。
如果父类方法在子类中没有被重写,方法表集合中就不会出现来自父类的方法信息。
Class文件、字段表、方法表都可以携带自己的属性表集合,以用于描述某些场景专有的信息。
为了能正确解析Class文件,在Java SE 7中预定义了21项属性,虚拟机在运行时会忽略他不认识的属性。
Java虚拟机的指令是由一个字节长度的、代表着某种特定操作含义的数字(操作码,Opcode)以及跟随其后的零个至多个代表此操作所需要的参数(操作数,Operands)构成。
常用指令: