来源:《深入理解java虚拟机:jvm高级特性与最佳实践》
java语法糖的味道:泛型与类型擦除
泛型是jdk 1.5的一项新特性,它的本质是参数化类型(parameterized type)的应用,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
泛型思想早在c++语言的模板(templates)中就开始生根发芽,在java语言处于还没有出现泛型的版本时,只能通过object是所有类型的父类和类型强制转换两个特点的配合来实现类型泛化。例如在哈希表的存取中,jdk 1.5之前使用hashmap的get()方法,返回值就是一个object对象,由于java语言里面所有的类型都继承于java.lang.object,那object转型成任何对象都是有可能的。但是也因为有无限的可能性,就只有程序员和运行期的虚拟机才知道这个object到底是个什么类型的对象。在编译期间,编译器无法检查这个object的强制转型是否成功,如果仅仅依赖程序员去保障这项操作的正确性,许多classcastexception的风险就会被转嫁到程序运行期之中。
泛型技术在c#和java之中的使用方式看似相同,但实现上却有着根本性的分歧,c#里面泛型无论在程序源码中、编译后的il中(intermediate language,中间语言,这时候泛型是一个占位符)或是运行期的clr中都是切实存在的,list与list就是两个不同的类型,它们在系统运行期生成,有自己的虚方法表和类型数据,这种实现称为类型膨胀,基于这种方法实现的泛型被称为真实泛型。
java语言中的泛型则不一样,它只在程序源码中存在,在编译后的字节码文件中,就已经被替换为原来的原生类型(raw type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此对于运行期的java语言来说,arraylist与arraylist就是同一个类。所以说泛型技术实际上是java语言的一颗语法糖,java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型被称为伪泛型。
代码清单10-2是一段简单的java泛型例子,我们可以看一下它编译后的结果是怎样的?
代码清单 10-2 泛型擦除前的例子
public static void main(string[] args) {
map map = new hashmap();
map.put("hello", "你好");
map.put("how are you?", "吃了没?");
system.out.println(map.get("hello"));
system.out.println(map.get("how are you?"));
}
把这段java代码编译成class文件,然后再用字节码反编译工具进行反编译后,将会发现泛型都不见了,程序又变回了java泛型出现之前的写法,泛型类型都变回了原生类型,如代码清单10-3所示。
代码清单 10-3 泛型擦除后的例子
public static void main(string[] args) {
map map = new hashmap();
map.put("hello", "你好");
map.put("how are you?", "吃了没?");
system.out.println((string) map.get("hello"));
system.out.println((string) map.get("how are you?"));
}
当初jdk设计团队为什么选择类型擦除的方式来实现java语言的泛型支持呢?是因为实现简单、兼容性考虑还是别的原因?我们已不得而知,但确实有不少人对java语言提供的伪泛型颇有微词,当时甚至连《thinking in java》一书的作者bruce eckel也发表了一篇文章《这不是泛型!》 来批评jdk 1.5中的泛型实现。
(注1:原文:http://www.anyang-window.com.cn/quotthis-is-not-a-genericquot-bruce-eckel-eyes-of-the-generic-java/)
当时众多的批评之中,有一些是比较表面的,还有一些从性能上说泛型会由于强制转型操作和运行期缺少针对类型的优化等从而导致比c#的泛型慢一些,则是完全偏离了方向,姑且不论java泛型是不是真的会比c#泛型慢,选择从性能的角度上评价用于提升语义准确性的泛型思想,就犹如在讨论刘翔打斯诺克的水平与丁俊晖有多大的差距一般。但笔者也并非在为java的泛型辩护,它在某些场景下确实存在不足,笔者认为通过擦除法来实现泛型丧失了一些泛型思想应有的优雅,例如下面代码清单10-4的例子:
代码清单 10-4 当泛型遇见重载 1
public class generictypes {
public static void method(list list) {
system.out.println("invoke method(list list)");
}
public static void method(list list) {
system.out.println("invoke method(list list)");
}
}
请想一想,上面这段代码是否正确,能否编译执行?也许您已经有了答案,这段代码是不能被编译的,是因为参数list和list编译之后都被擦除了,变成了一样的原生类型list,擦除动作导致这两个方法的特征签名变得一模一样。初步看来,无法重载的原因已经找到了,但是真的就是如此吗?只能说,泛型擦除成相同的原生类型只是无法重载的其中一部分原因,请再接着看一看代码清单10-5中的内容。
代码清单 10-5 当泛型遇见重载 2
public class generictypes {
public static string method(list list) {
system.out.println("invoke method(list list)");
return "";
}
public static int method(list list) {
system.out.println("invoke method(list list)");
return 1;
}
public static void main(string[] args) {
method(new arraylist());
method(new arraylist());
}
}
执行结果:
invoke method(list list)
invoke method(list list)
代码清单10-5与代码清单10-4的差别,是两个method方法添加了不同的返回值,由于这两个返回值的加入,方法重载居然成功了,即这段代码可以被编译和执行 了。这是我们对java语言中返回值不参与重载选择的基本认知的挑战吗?
(注2:测试的时候请使用sun jdk的javac编译器进行编译,其他编译器,如eclipse jdt的ecj编译器,仍然可能会拒绝编译这段代码,ecj编译时会提示“method method(list) has the same erasure method(list) as another method in type generictypes”。)
代码清单10-5中的重载当然不是根据返回值来确定的,之所以这次能编译和执行成功,是因为两个mehtod()方法加入了不同的返回值后才能共存在一个class文件之中。第6章介绍class文件方法表(method_info)的数据结构时曾经提到过,方法重载要求方法具备不同的特征签名,返回值并不包含在方法的特征签名之中,所以返回值不参与重载选择,但是在class文件格式之中,只要描述符不是完全一致的两个方法就可以共存。也就是说两个方法如果有相同的名称和特征签名,但返回值不同,那它们也是可以合法地共存于一个class文件中的。
由于java泛型的引入,各种场景(虚拟机解析、反射等)下的方法调用都可能对原有的基础产生影响和新的需求,如在泛型类中如何获取传入的参数化类型等。所以jcp组织对虚拟机规范做出了相应的修改,引入了诸如signature、localvariabletypetable等新的属性用于解决伴随泛型而来的参数类型的识别问题,signature是其中最重要的一项属性,它的作用就是存储一个方法在字节码层面的特征签名 ,这个属性中保存的参数类型并不是原生类型,而是包括了参数化类型的信息。修改后的虚拟机规范 要求所有能识别49.0以上版本的class文件的虚拟机都要能正确地识别signature参数。
(注3:在《java虚拟机规范第二版》(jdk 1.5修改后的版本)的“§4.4.4 signatures”章节及《java语言规范第三版》的“§8.4.2 method signature”章节中分别都定义了字节码层面的方法特征签名,以及java代码层面的方法特征签名,特征签名最重要的任务就是作为方法独一无二不可重复的id,在java代码中的方法特征签名只包括了方法名称、参数顺序及参数类型,而在字节码中的特征签名还包括方法返回值及受查异常表,本书中如果指的是字节码层面的方法签名,笔者会加入限定语进行说明,也请读者根据上下文语境注意区分。)
从上面的例子可以看到擦除法对实际编码带来的影响,由于list和list擦除后是同一个类型,我们只能添加两个并不需要实际使用到的返回值才能完成重载,这是一种毫无优雅和美感可言的解决方案。同时,从signature属性的出现我们还可以得出结论,擦除法所谓的擦除,仅仅是对方法的code属性中的字节码进行擦除,实际上元数据中还是保留了泛型信息,这也是我们能通过反射手段取得参数化类型的根本依据。