Java 语言的 3 类编译器:
Java 语言的“编译期”是一段“不确定”的操作过程,它可能是 3 类编译器中某类的编译过程。
Javac 的编译过程大致可分为 3 个过程:
这 3 个步骤之间的关系与交互顺序如下图所示:
Javac 的编译动作入口是 com.sun.tools.javac.main.JavaCompiler 类,上述 3 个过程的代码逻辑集中在这个类的 compile() 和 compile2() 方法中。
词法分析是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以成为标记。
语法分析是根据 Token 序列构造抽象语法树的过程。
抽象语法树(AST)是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构,例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以是一个语法结构。生成抽象语法树之后,编译器的后续操作基本都建立在抽象语法树之上。
在 Javac 源码中,词法分析过程由 com.sun.tools.javac.parser.Scanner 类实现,语法分析过程则由 com.sun.tools.javac.parser.Parser 类实现,生成的抽象语法树由 com.sun.tools.javac.tree.JCTree 类表示。
符号表是由一组符号地址和符号信息构成的表格,可以把它想象成哈希表中 K-V 值对的形式。符号表中所登记的信息在编译的不同阶段都要用到。
在 Javac 源码中,填充符号表的过程由 com.sun.tools.javac.comp.Enter 类实现。
JDK1.6 提供了一组插入式注解处理器的标准 API,在编译期间对注解进行处理。可以把这组 API 看做是一组编译器的插件,在这些插件里面,可以读取、修改、添加抽象语法树中的任何元素。
如果这些插件在处理注解期间对语法树进行了修改,编译器将回到解析及填充符号表的过程重新处理,直到所有插入式注解处理器都没有再对语法树进行修改为止。
在 Javac 源码中,插入式注解处理的初始化过程是在 initProcessAnnotations() 方法中完成的,它的执行过程则是在 processAnnotations() 方法中完成的。
语法分析之后,编译器获得了程序代码的抽象语法树表示,语法树能表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的。
语义分析的主要任务就是对结构上正确的源程序进行上下文逻辑审查,包括标注检查、数据及控制流分析两个步骤。
标注检查的内容包括变量使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配等。
常量折叠:
标注检查会将表达式的结果值在语法树上标注出来,这个动作称为常量折叠。
比如定义了一个 int a = 1 + 2;
。在语法树上仍然能看到字面量“1”、“2”以及操作符“+”,但是经过常量折叠后,会被折叠为字面量“3”,并且会在语法树上标注出来。
在 Javac 源码中,标注检查的入口是 attribute() 方法,具体操作由 com.sun.tools.javac.comp.Attr 类和 com.sun.tools.javac.comp.Check类完成。
数据及控制流分析是对程序上下文逻辑更进一步的验证,包括局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理等。
编译期的数据及控制流分析与类加载时的数据及控制流分析的目的基本上是一致的,只是检验范围有所区别,有一些校验项只有在编译期或运行期才能进行。
在 Javac 源码中,数据及控制流分析的入口是 flow() 方法,具体操作由 com.sun.tools.javac.comp.Flow类完成。
语法糖是指在计算机语言中添加的某种语法,这种语法对语言的功能没有影响,但是能够方便程序员使用,增加程序的可读性,从而减少程序代码出错的机会。
虚拟机运行时并不支持语法糖的语法,因此,需要在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。
在 Javac 源码中,解语法糖的过程由 desugar() 方法触发,在 com.sun.tools.javac.comp.TransTypes 类和 com.sun.tools.javac.comp.Lower 类中完成。
字节码生成是 Javac 编译过程的最后一个阶段,在 Javac 源码中由 com.sun.tools.javac.jvm.Gen 类完成。
字节码生成阶段不仅仅是把前面各个步骤所生成的信息(语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。例如,实例构造器 init() 方法和类构造器 clinit() 方法就是在这个阶段添加到语法树之中的。
完成了对语法树的遍历和调整之后,会把填充了所有所需信息的符号表交给 com.sun.tools.javac.jvm.ClassWriter 类,由这个类的 writeClass() 方法输出字节码,生成最终的 class 文件。
泛型的本质是参数化类型的应用,即将所操作的数据类型指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
C# 与 Java 的泛型:
泛型技术在 C# 和 Java 之中的使用方式看似相同,但实现上却有着根本性的分歧。
C# 的泛型无论在程序源码中、编译后的 IL (中间语言,这时候泛型是一个占位符)中,或是运行期的 CLR(公共语言运行库) 中,都是切实存在的。在 C# 中,List 与 List 就是两个不同的类型,它们在系统运行期生成,有自己的虚方法表和数据类型,这种实现称为类型膨胀,基于这种方法实现的泛型称为真实泛型。
Java 的泛型只在程序源码中存在,在编译后的字节码文件中,就已经替换为原来的原生类型(也称为裸类型)了,并且在相应的地方插入了强制转型代码。因此,对于运行期的 Java 语言来说,ArrayList 与 ArrayList 就是同一个类,所以泛型技术实际上是 Java 语言的一颗语法糖,Java 语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型。
自动装箱与拆箱在编译之后被转化成了对应的包装和还原方法。比如 Integer.valueOf() 与 Integer.intValue()。
遍历循环把代码还原成了迭代器的实现,这也是为何遍历循环需要被遍历的类实现 Iterable 接口的原因。
变长参数在调用的时候变成了一个数组类型的参数。
条件编译是指编译器在编译时只对满足条件的代码进行编译,而将不满足条件的代码舍弃。
Java 语言可以使用条件为布尔常量值的 if 语句进行条件编译。根据布尔常量值的真假,编译器会舍弃分支中不成立的代码块。