Javac编译器是一个由Java语言编写的程序
从Sun Javac的代码来看,编译器大致分为3个过程:
Javac编译动作的入口为com.sun.tools.javac.main.JavaCompiler
类,上述3个过程的代码逻辑集中在这个类的compile()
和compile2()
方法中。
解析步骤由上图的parseFiles()
方法完成,解析步骤包括了经典程序编译原理中的词法分析和语法分析两个过程。
词法分析是将源代码的字符流转变为标记(Token)集合,标记为编译过程的最小元素。关键字、变量名、字面量、运算符都可以成为标记。如int a = 3;
,int
就是一个Token。词法分析过程由com.sun.tools.javac.parser.Scanner
类来实现。
语法分析是根据Token序列构造抽象语法树的过程,抽象语法树是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构。
可以根据Eclipse AST View插件分析出代码的抽象语法树图。在Javac的源码中,语法分析过程由com.sun.tools.javac.parser.Parser
类实现,这个阶段产生的抽象语法树由com.sun.tools.javac.tree.JCTree
类表示,经过这个步骤后,后续的操作都建立在抽象语法树之上。
完成词法、语法分析之后就是填充符号表的过程,就是图中enterTrees()
方法。符号表是由一组符号地址和符号信息构成的表格。符号表中所登记的信息在编译的不同阶段都要用到,在语法分析中,符号表所登记内容将用于语义检查和产生中间代码。在目标代码生成阶段,当对符号名进行地址分配时,符号表是地址分配的依据。
在jdk1.5之后,Java语言提供了对注解(Annotation)的支持。在jdk1.6中,提供了一组插入式注解处理器的标准API在编译期间对注解进行处理,其中,我们可以读取、修改、添加抽象语法树中的任意元素。如果这些插件在处理注解期间对语法树进行修改,编译器将回到解析及填充符号表的过程重新处理,直到所有插入式注解处理器都没有再对语法树进行修改为止,每一次循环称为一个Round,也是上图中的回环过程。
插入式注解处理器的初始化过程是在initPorcessAnnotations()
方法中完成的,而它的执行过程则是在processAnnotations()
方法中完成的,这个方法判断是否还有新的注解处理器需要执行,如果有的话,通过com.sun.tools.javac.processing.JavacProcessingEnvironment
类的doProcessing()
方法生成一个新的JavaCompiler
对象对编译的后续步骤进行处理。
语法树表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的。而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查。
语法分析过程分为标注检查以及数据及控制流分析两个步骤,为图中的attribute()
和flow()
标注检查步骤检查的内容包括诸如变量的使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配等。
在标注检查步骤中,有一个重要的动作称为常量折叠,如果我们在代码中定义了int a=1+2;
那么在语法树上仍能看见字面量“1”,“2”以及操作符“+”,但经过折叠后,将会被折叠为字面量“3”,所以int a=1+2;
比起int a=3;
并不会增加程序运行期间计算量。
标注检查步骤在Javac源码中的实现类为com.sun.tools.javac.comp.Attr
类和com.sun.tools.comp.Check
类。
数据及控制流分析是对程序上下文逻辑更进一步的验证,可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理等问题。
在Javac的源码中,数据及控制流分析的入口为上图中的flow()
方法,具体操作由com.sun.tools.javac.comp.Flow
类完成。
语法糖指在计算机语言中添加的某种语法,这种语法对语言的的功能并未有影响,但是更加方便程序员使用。
Java中的常用语法糖主要是前面提到过的泛型、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。
在Javac源码中,解语法糖的过程由desugar()
方法触发,在com.sun.tools.javac.comp.TransTypes
类和com.sun.tools.javac.comp.Lower
类完成。
字节码生成是Javac编译过程的最后一个阶段,在Javac源码里面由com.sun.tools.javac.jvm.Gen
类完成。字节码生成阶段不仅仅是把前面的各个步骤所生成的信息转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。
完成了对语法树的遍历和调整之后,就会把填充了所有所需信息的符号表交给com.sun.tools.javac.jvm.ClassWriter
类,由这个类的writeClass()
方法输出字节码,生产最终的Class文件,到此为止整个编译过程宣告结束。
Java语言中的泛型只在程序源码中存在,在编译后的字节码文件中,就已经替换为原来的原生类型了,并且在相应的地方插入强制转型代码,Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型。
由于Java泛型的引入,JCP组织引入了诸如Signature
、LocalVariableTypeTable
等新的属性用于解决伴随泛型而来的参数类型的识别问题。Signature
作用就是存储一个方法在字节码层面的特征签名,这个属性中保存的参数类型并不是原生类型,而是包括了参数化类型的信息。
从Singature
中可以看出,所谓的擦除,只是对方法的Code属性中的字节码进行擦除,实际上元数据还是保留了泛型信息,这也是我们能通过反射手段取得参数化类型的根本依据。
自动装箱、拆箱在编译之后被转化成了对应的包装盒还原方法。遍历循环则把代码还原成了迭代器的实现。变长参数在调用时候变成了一个数组类型的参数。
C、C++中是使用预处理器指示符来完成条件编译,而在Java中没有预处理器,因为Java天然的编译方式(编译器并非一个个地编译Java文件,而是将所有编译单元的语法树顶级节点输入到待处理列表后再进行编译,因此各个文件之间能够互相提供符号信息。)无须使用预处理器。
而Java使用条件为常量的if语句来进行条件编译。如果使用常量与其他带有条件判断能力的语句搭配,则可能在控制流分析中提示错误,被拒绝编译。
根据布尔常量值的真假,编译器将会把分支中不成立的代码块消除掉,这一工作将在编译器解除语法糖阶段(com.sun.tool.javac.comp.Lower
类中)完成,因为这种条件编译的实现方式使用了if语句,所以只能写在方法体内部,因此它只能实现语句基本块级别的条件编译。
参考《深入理解Java虚拟机》