本文介绍了如何在普通Java程序中应用代码动态生成技术,并测试、比较了各种实现方法
的性能。
提纲:
一、概述 / 二、表达式计算器 / 三、解释法 / 四、解析法 / 五、编译法 / 六、生成法
/ 七、性能和应用
正文:
一、概述
经常有人批评Java的性能,认为Java程序无法与C或C++程序相提并论。为此,Java一直在
性能优化上进行着不懈的努力,特别是运行时的性能优化机制,平息了许多责难。但是,
不管Java把性能提高到了什么程度,人们对代码性能的渴求是没有止境的。
显然,Java在某些操作上的性能确实无法与C/C++相比,这是由Java语言的特点所决定的,
例如为了跨平台而采用了中间语言(字节码)机制。另一方面,由于Java有着许多独特的
特性,它可以利用许多其他语言很难采用的优化技术,动态代码生成就是其中之一。
所谓动态代码生成,就是一种在运行时由程序动态生成代码的过程。动态生成的代码和生
成它的程序在同一个JVM中运行,且访问方式也相似。当然,和其他优化技术相似,动态代
码生成只适用于某些特定类型的任务。
JSP或许就是人们最熟悉的动态代码生成的例子。Servlet引擎能够把客户的请求分发给Se
rvlet处理,但Servlet天生是一种静态的结构。在启动服务器之前,Servlet一般必须先编
译和配置好。虽然Servlet有着许多优点,但在灵活性方面,Servlet略逊一筹。JSP技术突
破了Servlet的限制,允许在运行时以JSP文件为基础动态创建Servlet。
当客户程序发出了对JSP文件的请求,Servlet引擎向JSP引擎发出请求,JSP引擎处理JSP文
件并返回结果。JSP文件是一系列动作的文本描述,这一系列动作的执行结果就是返回给用
户的页面。显然,如果每一个用户的请求到达时都通过解释的方式执行JSP页面,开销肯定
比较大。所以,JSP引擎编译JSP页面动态创建Servlet。一旦JSP页面被改变,JSP引擎就会
动态地创建新的Servlet。
在这里,动态代码生成技术的优势非常明显——既满足了灵活性的要求,又不致于对性能
产生太大的影响。在编译Servlet甚至启动服务器时,系统的行为方式不必完全固定;同时
,由于不必在应答每一个请求时解释执行JSP文件,所以也就减少了响应时间。
二、表达式计算器
下面我们来看看如何在普通Java程序中使用动态代码生成技术。本文的例子是一个简单的
四则运算表达式计算器,它能够计算形如“4 $0 + $1 *”的后缀表达式,其中$0和$1分别
表示变量0、变量1。可能出现在表达式中的符号有三种:变量,常量,操作符。
后缀表达式是一种基于堆栈的计算表达式,处理过程从左到右依次进行,仍以前面的表达
式为例:先把4和变量0压入堆栈,下一个字符是操作符“+”,所以把当时栈顶的两个值(
4和变量0)相加,然后用加法结果取代栈顶的两个值。接着,再把1压入堆栈,由于接下来
的是操作符“*”,所以对这时栈顶的两个值执行乘法操作。如果把这个表达式转换成通常
的代数表达式(即中缀表达式),它就是“(4 + $0) * $1”。如果两个变量分别是“[3,
6]”,则表达式的计算结果是(4+3)*6=42。
为了比较代码动态生成和常规编程方式的性能差异,我们将以各种不同的方式实现表达式
计算器,然后测试各个计算器的性能。
本文的所有表达式计算器都实现(或隐含地实现)calculator接口。calculator接口只有
一个evaluate方法,它的输入参数是一个整数数组,返回值是一个表示计算结果的整数。
//Calculator.java
public interface Calculator {
int evaluate(int[] arguments);
}
三、解释法
首先我们来看一个简单但效率不高的表达式计算器,它利用Stack对象计算表达。每次计算
,表达式都要重新分析一次,因此可以称为解释法。不过,表达式的符号分析只在对象创
建时执行一次,避免StringTokenizer类带来太大的开销。
//SimpleCalculator.java
import java.util.ArrayList;
import java.util.Stack;
import java.util.StringTokenizer;
public class SimpleCalculator implements Calculator {
String[] _toks; // 符号列表
public SimpleCalculator(String expression) {
// 构造符号列表
ArrayList list = new ArrayList();
StringTokenizer tokenizer
= new StringTokenizer(expression);
while (tokenizer.hasMoreTokens()) {
list.add(tokenizer.nextToken());
}
_toks = (String[])
list.toArray(new String[list.size()]);
}
// 将变量值代入表达式中的变量,
// 然后返回表达式的计算结果
public int evaluate(int[] args) {
Stack stack = new Stack();
for (int i = 0; i < _toks.length; i++) {
String tok = _toks[i];
// 以‘$’开头的是变量
if (tok.startsWith("$")) {
int varnum = Integer.parseInt(tok.substring(1));
stack.push(new Integer(args[varnum]));
} else {
char opchar = tok.charAt(0);
int op = "+-*/".indexOf(opchar);
if (op == -1) {
// 常量
stack.push(Integer.valueOf(tok));
} else {
// 操作符
int arg2 = ((Integer) stack.pop()).intValue();
int arg1 = ((Integer) stack.pop()).intValue();
switch (op) {
// 对栈顶的两个值执行指定的操作
case 0:
stack.push(new Integer(arg1 + arg2));
break;
case 1:
stack.push(new Integer(arg1 - arg2));
break;
case 2:
stack.push(new Integer(arg1 * arg2));
break;
case 3:
stack.push(new Integer(arg1 / arg2));
break;
default:
throw new RuntimeException
("操作符不合法: " + tok);
}
}
}
}
return ((Integer) stack.pop()).intValue();
}
}
从本文后面的性能测试数据可以看出,这种表达式计算方式的效率相当低。对于偶尔需要
计算表达式的场合,它也许适用,但我们还有更好的处理方式。
四、解析法
如果经常要计算表达式的值,一种更好的办法是先解析表达式,应用Composite设计模式,
构造一棵表达式树。我们称这种表达式计算方式为解析法。如下面的代码所示,树的内部
结构代表了表达式的计算逻辑,因而避免了每次计算表达式时重复分析计算逻辑。
//CalculatorParser.java
import java.util.Stack;
import java.util.StringTokenizer;
public class CalculatorParser {
public Calculator parse(String expression) {
// 分析表达式,构造由表达式各个符号构成的
// 树形结构。
Stack stack = new Stack();
StringTokenizer toks
= new StringTokenizer(expression);
while (toks.hasMoreTokens()) {
String tok = toks.nextToken();
if (tok.startsWith("$")) {
// 以‘$’开头的是变量
int varnum
= Integer.parseInt(tok.substring(1));
stack.push(new VariableValue(varnum));
} else {
int op = "+-*/".indexOf(tok.charAt(0));
if (op == -1) {
//常量
int val = Integer.parseInt(tok);
stack.push(new ConstantValue(val));
} else {
//操作符
Calculator node2 = (Calculator) stack.pop();
Calculator node1 = (Calculator) stack.pop();
stack.push(
new Operation(tok.charAt(0), node1, node2));
}
}
}
return (Calculator) stack.pop();
}
// 常量
static class ConstantValue implements Calculator {
private int _value;
ConstantValue(int value) {
_value = value; }
public int evaluate(int[] args) {
return _value; }
}
// 变量
static class VariableValue implements Calculator {
private int _varnum;
VariableValue(int varnum) {
_varnum = varnum; }
public int evaluate(int[] args) {
return args[_varnum]; }
}
// 操作符
static class Operation implements Calculator {
char _op;
Calculator _arg1;
Calculator _arg2;
Operation(char op, Calculator arg1, Calculator arg2) {
_op = op;
_arg1 = arg1;
_arg2 = arg2;
}
public int evaluate(int args[]) {
int val1 = _arg1.evaluate(args);
int val2 = _arg2.evaluate(args);
if (_op == '+') {
return val1 + val2;
} else if (_op == '-') {
return val1 - val2;
} else if (_op == '*') {
return val1 * val2;
} else if (_op == '/') {
return val1 / val2;
} else {
throw new RuntimeException("操作符不合法: " + _op);
}
}
}
}
由于表达式的计算逻辑已经事先解析好,CalculatorParser的性能明显高于第一个通过
解释方式执行的计算器。尽管如此,我们还可以通过代码动态生成技术进一步优化代码。
五、编译法
为了进一步优化表达式计算器的性能,我们要直接编译表达式——先根据表达式的逻辑动
态生成Java代码,然后执行动态生成的Java代码,这种方法可以称之为编译法。
把后缀表达式翻译成Java表达式很简单,例如“$0 $1 $2 * +”可以由Java表达式“args
[0] + (args[1] * args[2]”表示。我们要为动态生成的Java类选择一个唯一的名字,然
后把代码写入临时文件。动态生成的Java类具有如下形式:
public class [类的名称] implements Calculator{
public int evaluate(int[] args) {
return args[0] + (args[1] * args[2]);
}
}
下面是编译法计算器的完整代码。
//CalculatorCompiler.java
import java.util.Stack;
import java.util.StringTokenizer;
import java.io.*;
//定制的类装入器
public class CalculatorCompiler extends ClassLoader {
String _compiler;
String _classpath;
public CalculatorCompiler() {
super(ClassLoader.getSystemClassLoader());
//编译器类型
_compiler = System.getProperty("calc.compiler");
//默认编译器
if (_compiler == null) _compiler = "javac";
_classpath = ".";
String extraclasspath
= System.getProperty("calc.classpath");
if (extraclasspath != null) {
_classpath = _classpath +
System.getProperty("path.separator")
+ extraclasspath;
}
}
public Calculator compile(String expression) {
// A3
String jtext = javaExpression(expression);
String filename = "";
String classname = "";
try {
//创建临时文件
File javafile = File.createTempFile(
"compiled_", ".java", new File("."));
filename = javafile.getName();
classname = filename.substring(
0, filename.lastIndexOf("."));
generateJavaFile(javafile, classname, expression);
//编译文件
invokeCompiler(javafile);
//创建java类
byte[] buf = readBytes(classname + ".class");
Class c = defineClass(buf, 0, buf.length);
try {
// 创建并返回类的实例
return (Calculator) c.newInstance();
} catch (IllegalAccessException e) {
throw new RuntimeException(e.getMessage());
} catch (InstantiationException e) {
throw new RuntimeException(e.getMessage());
}
} catch (IOException e) {
throw new RuntimeException(e.getMessage());
}
}
//生成java文件
void generateJavaFile(
File javafile, String classname, String expression)
throws IOException {
FileOutputStream out = new FileOutputStream(javafile);
String text = "public class " + classname +
" implements Calculator {" +
" public int evaluate(int[] args) {" +
" " + javaExpression(expression) +
" }" + "}";
out.write(text.getBytes());
out.close();
}
//编译java文件
void invokeCompiler(File javafile) throws IOException {
String[] cmd = {_compiler, "-classpath",
_classpath, javafile.getName()};
//执行编译命令
//A1:
Process process = Runtime.getRuntime().exec(cmd);
try { //等待编译器结束
process.waitFor();
} catch (InterruptedException e) {
}
int val = process.exitValue();
if (val != 0) {
throw new RuntimeException(
"编译错误:" + "错误代码" + val);
}
}
//以byte数组形式读入类文件
byte[] readBytes(String filename) throws IOException {
// A2
File classfile = new File(filename);
byte[] buf = new byte[(int) classfile.length()];
FileInputStream in = new FileInputStream(classfile);
in.read(buf);
in.close();
return buf;
}
String javaExpression(String expression) {
Stack stack = new Stack();
StringTokenizer toks
= new StringTokenizer(expression);
while (toks.hasMoreTokens()) {
String tok = toks.nextToken();
if (tok.startsWith("$")) {
stack.push("args[
" + Integer.parseInt(tok.substring(1)) + "]");
} else {
int op = "+-*/".indexOf(tok.charAt(0));
if (op == -1) {
stack.push(tok);
} else {
String arg2 = (String) stack.pop();
String arg1 = (String) stack.pop();
stack.push("(
" + arg1 + " " + tok.charAt(0) + " " + arg2 + ")");
}
}
}
return "return " + (String) stack.pop() + ";";
}
}
有了动态生成的代码之后,还要编译这些代码。我们假定系统使用的是javac编译器,且系
统的PATH环境变量包含了javac编译器的路径。如果javac不在PATH环境变量中,或者要使
用其他的编译器,则可以通过compiler属性指定,例如“-Dcalc.compiler=jikes”。如果
编译器不是javac,一般还要把Java运行时JAR文件(jre/lib目录下的rt.jar)放入编译器
的CLASSPATH。我们通过classpath属性为编译器指示额外的CLASSPATH成员。例如“-Dcal
c.classpath=c:\java\jre\lib\rt.jar”。
编译器可以通过Runtime.exec(String[] cmd)作为一个外部进程调用,Runtime.exec的执
行结果是一个Process对象(参见注释为“A1”的代码,下文以相似的方式引用代码的特定
部分)。cmd数组包含了要执行的系统命令,其中第一个元素必须是待执行程序的名称,其
余元素是传递给执行程序的各个参数。启动编译进程后,我们要等待编译进程运行结束,
然后获取编译器的返回值。编译进程返回0表示编译成功。
最后一个与编译器有关的问题是,由于编译器作为外部进程运行,所以最好能够读取编译
器的输出和错误报告。如果编译器遇到了大量的错误,编译过程可能处于阻塞状态(等待
读取)。本文的例子只是为了测试性能,为简单计,不处理该问题。但是,在正式的Java
工程中,这个问题是必须处理的。
编译成功之后,当前目录下就会有一个class文件,我们要用ClassLoader装入它(注释“
A2”)。ClassLoader读取的是byte数组,所以我们先把class文件的内容读入byte数组,
然后创建一个类。这里的类装入器属于最简单的定制类装入器,不过它已经足以完成我们
这里的任务。成功装入类之后,创建该类的实例,然后返回这个实例(注释“A3”)。
从测试结果可以看出,编译法计算器的性能有了显著的提高。同样是1000000次计算,现在
只需要100-200ms,而不是原来的1-2秒。不过,编译操作也带来了很大的时间开销,调用
javac编译器编译代码大约需要1-2秒,抵消了计算器本身性能的提升。不过,javac并不是
一个高性能的编译器,如果我们改用jikes之类的高速编译器,编译时间大大改善,降低到
了100-200ms。
六、生成法
最理想的方案当然是既有编译法的运行时性能优势,又避免调用外部编译器的开销。下面
我们要通过在内存中直接生成Java字节码避免调用外部编译器的开销,称之为生成法。
Java class文件的格式比较复杂,所以我们要用一个第三方的字节码代码库来生成文件。
本例使用的是BCEL,即Bytecode Engineering Library。BCEL是一个源代码开放的免费代
码库(http://sourceforge.net/projects/bcel/),可以帮助我们分析、创建、处理二进
制的Java字节码。先来看看用BCEL直接生成字节码的计算器代码清单。
//CalculatorGenerator.java
import java.io.*;
import java.util.Stack;
import java.util.StringTokenizer;
//从sourceforge.net/projects/bcel/下载BCEL代码库
import de.fub.bytecode.classfile.*;
import de.fub.bytecode.generic.*;
import de.fub.bytecode.Constants;
public class CalculatorGenerator
extends ClassLoader {
public Calculator generate(String expression) {
String classname =
"Calc_" + System.currentTimeMillis();
// 声明类
// B1
ClassGen classgen
= new ClassGen(classname, "java.lang.Object", "",
Constants.ACC_PUBLIC | Constants.ACC_SUPER,
new String[]{"Calculator"});
// 构造函数
// B2
classgen.addEmptyConstructor(Constants.ACC_PUBLIC);
// 加入计算表达式的方法
// B3
addEvalMethod(classgen, expression);
byte[] data = classgen.getJavaClass().getBytes();
Class c = defineClass(data, 0, data.length);
try {
return (Calculator) c.newInstance();
} catch (IllegalAccessException e) {
throw new RuntimeException(e.getMessage());
} catch (InstantiationException e) {
throw new RuntimeException(e.getMessage());
}
}
private void addEvalMethod(
ClassGen classgen, String expression) {
// B4
ConstantPoolGen cp = classgen.getConstantPool();
InstructionList il
= new InstructionList();
StringTokenizer toks
= new StringTokenizer(expression);
int stacksize = 0;
int maxstack = 0;
while (toks.hasMoreTokens()) {
String tok = toks.nextToken();
if (tok.startsWith("$")) {
int varnum = Integer.parseInt(tok.substring(1));
// 数组引用
il.append(InstructionConstants.ALOAD_1);
// 数组序号
il.append(new PUSH(cp, varnum));
il.append(InstructionConstants.IALOAD);
} else {
int op = "+-*/".indexOf(tok.charAt(0));
// 根据操作符生成操作指令
switch (op) {
case -1:
int val = Integer.parseInt(tok);
il.append(new PUSH(cp, val));
break;
case 0:
il.append(InstructionConstants.IADD);
break;
case 1:
il.append(InstructionConstants.ISUB);
break;
case 2:
il.append(InstructionConstants.IMUL);
break;
case 3:
il.append(InstructionConstants.IDIV);
break;
default:
throw new RuntimeException("操作符非法");
}
}
}
il.append(InstructionConstants.IRETURN);
// 创建方法
// B5
MethodGen method
= new MethodGen(Constants.ACC_PUBLIC, Type.INT,
new Type[]
{
Type.getType("[I")}, new String[]{"args"},
"evaluate", classgen.getClassName(), il, cp);
// B6
method.setMaxStack();
method.setMaxLocals();
// 将方法加入到类
classgen.addMethod(method.getMethod());
}
}
使用BCEL时,首先要创建一个代表Java类的ClassGen对象(注释“B1”)。就象前面的编
译法一样,我们要定义一个唯一的类名字。与普通Java代码不同的是,现在我们要明确声
明超类java.lang.Object。ACC_PUBLIC声明该类是public类型。所有Java 1.0.2或更高版
本的Java类都必须声明ACC_SUPER访问标记。最后,我们指定了该类实现Calculator接口。
其次,我们要保证类有一个默认的构造函数(注释“B2”)。对于一般的Java编译器,如
果Java类没有定义构造函数,则Java编译器会自动插入一个默认的构造函数。现在我们用
BCEL直接生成字节码,必须显式声明构造函数。用BCEL生成默认构造函数的办法很简单,
只须调用ClassGen.addEmptyConstructor即可。
最后,我们要生成计算表达式的evaluate(int[] arguments)方法(注释“B3”和“B4”)
。JVM本身就是以堆栈为基础,所以把表达式转换成字节码的过程很简单,基于堆栈的计算
器几乎可以直接转换成字节码。指令按照执行次序收集到一个InstructionList。另外,我
们还要一个指向常量池的引用ConstantPoolGen。
准备好InstructionList之后,接着我们就可以创建MethodGen对象(注释“B5”)。我们
要创建的是一个public类型的方法,它的返回值是int,输入参数是一个整数数组(注意,
这里我们用到了整数数组的内部表示法“[I”)。另外,我们还提供了参数的名字,不过
这不是必需的。在这里,参数的名字是args,方法的名字是evaluate,最后几个参数包括
一个类的名字,一个InstructionList和一个常量池。
在BCEL中定义Java方法的限制比较严格(注释“B6”)。例如,Java方法必须声明它需要
多少大的操作符栈空间和为局部变量分配的空间。如果这些值错误,JVM将拒绝执行方法。
对于本例来说,手工计算这些值也不是很麻烦,但BCEL提供了几个能够分析字节码的方法
,我们只需简单地调用setMaxStack()和setMaxLocals()方法即可。
至此为止,整个类已经构造完毕。剩下的任务就是将类装入JVM,只要内存中有了byte数组
形式的类,我们就可以象在编译法中那样调用类装入器。
直接生成的代码和编译法生成的代码执行起来一样快,但初始的对象创建时间却大大减少
了。如果调用外部编译器,最好的情况下也需要100ms以上,利用BCEL创建类平均只需4ms
。
七、性能和应用
表一显示了四种方法的平均对象创建时间,其中编译法分两种编译器分别测试。表二是5个
测试用的表达式,表三是计算这些表达式1000000次所需时间。
http://bbs1.nju.edu.cn/file/C/crudeII/performance.jpg
显然,本文的例子完全是出于测试性能的目的,在实际应用中,要计算一个表达式100000
0次的情形是非常罕见的。然而,需要在运行时解析数据(XML、脚本语言、查询语句,等
等)却是经常会遇到的情形。动态代码生成不一定适用于每一类任务,但在下面这类场合
应该比较有用:
·处理过程主要由运行时才有效的定义信息决定。
·处理过程需要多次重复执行。
·如果每次执行处理过程时都重新解析定义信息,需要付出较大的开销。
如果某个问题适合于使用代码动态生成技术,接下来还有一个问题:应该使用编译法,还
是使用生成法?一般而言,首先生成Java代码然后调用外部编译器的方式比较简单。与JV
M指令相比,大多数人更熟悉Java代码;调试有源代码的程序也比直接调试字节码来得方便
。另外,好的编译器会在编译过程中优化代码,而这类优化操作在手工编码时一般是难以
顾及的。另一方面,调用外部编译器是一个开销很大的过程,配置编译器和CLASSPATH也增
加了维护应用的复杂程度。
生成法的性能优势非常明显。但是,它要求开发者深入了解class文件的格式和JVM字节码
指令。编译器在生成代码的过程中实际上完成了许多表面上看不到的工作,手工编写的字
节码不一定能够达到编译器自动编译的效果。如果要生成的代码比较复杂,在选择使用生
成法之前,务必仔细斟酌。