前面介绍LLVM的第一篇中,我们介绍过,编译器的后端基本都可以通过LLVM来解决。
那么,前端我们如何处理呢?我们选择ANTLR。
ANTLR是用Java写的词法和语法分析工具。它比lex/flex/yacc/bison是更现代的工具。
最方便的一点是,ANTLR已经替我们写好了常用语言的语法规则,我们已经拥有了常见语言的分析器,可以在其基础上直接做我们想做的事情。网址在[https://github.com/antlr/grammars-v4/]
我们看一些例子吧。曾经火遍大江南北的谭浩强老师的《BASIC语言》还有人记得吗?DOS时代,GW-BASIC和QBasic是系统默认自带的语言,如同Unix上的cc编译器一样。
10 FOR I = 1 TO 10 STEP 1
20 PRINT I
30 NEXT I
40 END
我们来看一下ANTLR中对BASIC语言FOR循环的语法:
// for stmt 2 puts the for, the statment, and the next on 3 lines. It needs "nextstmt"
forstmt2
: FOR vardecl EQ expression TO expression (STEP expression)?
;
nextstmt
: NEXT (vardecl (',' vardecl)*)?
;
完整的语法在:https://github.com/antlr/grammars-v4/blob/master/basic/jvmBasic.g4
还有更简单的么?有啊,汇编语言:https://github.com/antlr/grammars-v4/blob/master/masm/MASM.g4
言归正题,我们来看第一种大型的语言,C语言2011版的:https://github.com/antlr/grammars-v4/blob/master/c/C.g4
看个类型的吧,C11的还真不少:
typeSpecifier
: ('void'
| 'char'
| 'short'
| 'int'
| 'long'
| 'float'
| 'double'
| 'signed'
| 'unsigned'
| '_Bool'
| '_Complex'
| '__m128'
| '__m128d'
| '__m128i')
| '__extension__' '(' ('__m128' | '__m128d' | '__m128i') ')'
| atomicTypeSpecifier
| structOrUnionSpecifier
| enumSpecifier
| typedefName
| '__typeof__' '(' constantExpression ')' // GCC extension
;
我们通过语法规则,大致可以估算一下语言的复杂度:
语言 | 语法行数 | 地址 |
---|---|---|
C11 | 926 | https://github.com/antlr/grammars-v4/blob/master/c/C.g4 |
C++14 | 2353 | https://github.com/antlr/grammars-v4/blob/master/cpp/CPP14.g4 |
Go | 1170 | https://github.com/antlr/grammars-v4/blob/master/golang/Golang.g4 |
Java7 | 1017 | https://github.com/antlr/grammars-v4/blob/master/java/Java.g4 |
Java8 | 1780 | https://github.com/antlr/grammars-v4/blob/master/java8/Java8.g4 |
Lua | 336 | https://github.com/antlr/grammars-v4/blob/master/lua/Lua.g4 |
Pascal | 972 | https://github.com/antlr/grammars-v4/blob/master/pascal/pascal.g4 |
Python3 | 1558 | https://github.com/antlr/grammars-v4/blob/master/python3/Python3.g4 |
Swift | 1163 | https://github.com/antlr/grammars-v4/blob/master/swift/Swift.g4 |
ECMA Script 5 | 1504 | https://github.com/antlr/grammars-v4/blob/master/ecmascript/ECMAScript.g4 |
Erlang | 391 | https://github.com/antlr/grammars-v4/blob/master/erlang/Erlang.g4 |
Fortran 77 | 1363 | https://github.com/antlr/grammars-v4/blob/master/fortran77/fortran77.g4 |
Scala | 704 | https://github.com/antlr/grammars-v4/blob/master/scala/Scala.g4 |
SQLite | 905 | https://github.com/antlr/grammars-v4/blob/master/sqlite/SQLite.g4 |
Clojure | 262 | https://github.com/antlr/grammars-v4/blob/master/clojure/Clojure.g4 |
从词法复杂度上看:
* C,Java7,Swift,Go这几门语法的复杂度是比较适中的
* C++和Java 8确实是比较复杂的,比起它们的前辈C和Java 7都变复杂了不少
* JavaScript和Python3已经比较复杂了
* Clojure,Lua和Erlang是惊喜,规模小,表现力强
既然ANTLR有这么丰富的例子供我们参考,我们就装一个玩玩吧。
在macOS上,通过Homebrew就可以安装。
在Linux上,通过下面的步骤来安装:
wget http://www.antlr.org/download/antlr-4.6-complete.jar
export CLASSPATH=".:/path/to/antlr-4.6-complete.jar:$CLASSPATH"
alias antlr4='java -jar /path/to/antlr-4.6-complete.jar'
alias grun='java org.antlr.v4.gui.TestRig'
照抄个Hello,World的例子试一下吧:
grammar Hello ;
r : 'hello' ID ;
ID: [a-z]+ ;
WS : [ \t\r\n]+ -> skip ;
都是正则表达式,很容易理解,ID是小写字母组成的,WS是空格制表符回车换行符,空白符过滤掉。
输入antlr4 Hello.g4,就生成了好几个.java文件,调用javac编译一下。成功!
antlr4 Hello.g4
javac *.java
生成的文件,我们快速浏览一下:
第一个,HelloListener.java:
// Generated from Hello.g4 by ANTLR 4.6
import org.antlr.v4.runtime.tree.ParseTreeListener;
/**
* This interface defines a complete listener for a parse tree produced by
* {@link HelloParser}.
*/
public interface HelloListener extends ParseTreeListener {
/**
* Enter a parse tree produced by {@link HelloParser#r}.
* @param ctx the parse tree
*/
void enterR(HelloParser.RContext ctx);
/**
* Exit a parse tree produced by {@link HelloParser#r}.
* @param ctx the parse tree
*/
void exitR(HelloParser.RContext ctx);
}
R是我们刚才定义的语法规则,在进入和退出时,这个接口是提供回调的接口。
Hello.tokens:
T__0=1
ID=2
WS=3
'hello'=1
HelloParser.java是解析器。