首先我们从一道面试题开始:
java中string字符串长度有限制吗?
平时项目中,我们经常会用到String来声明字符串,比如String str = "bac",但是你从来没有想过字符串常量到底有米有长度限制。要彻底答对这道题,就需要先学习今天所讲的内容-------class文件。
class的来龙去脉
java能够实现"一次编译,到处运行",这其中class占了很大的功劳。为了让java具有良好的跨平台能力,java独具匠心的提供了一种中间代码----字节码类文件(.class文件)。有了字节码,无论哪种平台(如:mac、window、linux等),只要安装了虚拟机都可以直接运行字节码。
并且有了虚拟机,java虚拟机会java语言也就没有了耦合性。java虚拟机设计出来并不是为了单单运行java文件,如今可以支持groovy、JRuby、Jython、Scala等。之所以可以执行这些语言,是因为他们编译之后都可以生成字节码,能被java解释并执行。
上帝视角查看class文件
如果从上帝视角看class文件,class文件里面只有两种数据机构:无符号数和表。
- 无符号数:属于基本数据类型,以u1、u2、u4、u8分别表示一个字节、两个字节、四个字节、八个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者字符串(UTF-8编码)。
- 表:表是由多个无符号数或者其他表作为数据项构成的复合数据类型,class中所有的表都是_info结尾,整个class文件就是一张表。
这两者的关系可以用图表示:
可以看出一张表中可以包含其他无符号数和其他表格。伪代码可以如下所示:
//无符号
u1 = byte[1];
u2 = byte[2];
u4 = byte[4];
u8 = byte[8];
//表
class_table{
u1 tag;
u2 index2;
...
//表中也可以引用其他表
method_table mt;
...
}
class文件结构
刚才我们说在class文件中指存在无符号数和表这两种结构。而这些无符号数和表就构成了class中的各个结构。这些结构按照预先规定排好的顺序紧密的从前往后排列,相邻项之间米有任何间隙。如下图所示:
当jVM加载某个class文件时,JVM就是根据上图中的结构去解析class文件,加载class文件到内存中,并在内存中分配相应的空间。具体某一结构需要占用多大空间,可以参考下图:
看到这里你可能会有点概念混淆,分不清无符号数、表格以及上面的机构是什么关系。其实可以举一个简单的例子:人类的身体是由H、O、C、N等元素组成的。但是这些元素又是按照一定的规律组成了人类身体的各个器官。class中的无符号和表格就相当于人类身体中的H、O、C、N等元素,而class结构图中的各个结构相当于人类的各个器官。并且这些器官组织是有严格顺序的,毕竟眼睛不能长到屁股上。
实例分析
理清这些概念之后,通过一个简单的Java代码实例,来看一下上面这几个机构的详情。首先编写一个简单的Java源代码Test.java,如下所示:
package com.example.asmtest;
import java.io.Serializable;
/**
* create by zhaoyang ao 2021/8/29
*/
public class Test implements Serializable,Cloneable {
private int num = 1;
public int add(int i){
int j = 10;
num = num + i;
return num;
}
}
我们执行javac命令,可以生成对应的字节码,使用十六进制编辑器打开(mac可以使用ultraEdit)
前四个字节Ca fe ba be 是魔数,代码是一个可以解析的字节码文件。
接着的00 00 00 34是class文件的版本号,0000代码次版本号,0034代表主版本号 ,52就是jdk1.8.0。
在后面的就是常量池,常量池中保存了各种相关信息,比如类的名称、父类的名称、类中的方法名、参数名、参数类型等,都保存在常量池中。
常量池中的每一项都是一个表,其中项目类型共有14种,如下:
最前面两个字节是常量池的长度,接着常量池中的每一项都会有一个u1大小的tag。tag的值是表的标识。根据标识,JVM判断当前是那个表结构。
我们还可以通过javap -v Test.class来直接查看常量池
访问标识
紧紧跟在常量池后面的是访问标识,占两个字节。
类索引、父类索引与接口索引计数器
在访问标识后的两个字节就是类索引,类索引后的两个字节就是父类索引,父类索引后的两个字节就是接口索引计数器。
字段访问标志
对于java类中的变量,也可以使用public、private、final、static等标志。因此解析的时候先判断他的访问标志,如下:
方法表
字段表后面跟着的就是方法表的常量。方法表常量是一个计数器开始的,因为一个类中的方法数量不固定。
方法也有自己的访问标志
属性表
在解析字段和方法的时候,在他们的具体机构中我们能够看到一个attribute_info的表,这就是属性表。
属性表并没有一个固定的结构,各种不同的属性只要满足以下结构即可:
CONSTANT_Attribute_info{
u2 name_index;
u2 attribute_length length;
u1[] info;
}
到这里就完了,主要参考了姜新星的Android工程进阶34讲的第三讲。