ANTLR快餐教程(1) - 有好多现成例子啊

前面介绍LLVM的第一篇中,我们介绍过,编译器的后端基本都可以通过LLVM来解决。
那么,前端我们如何处理呢?我们选择ANTLR。

例子超丰富的ANTLR

ANTLR是用Java写的词法和语法分析工具。它比lex/flex/yacc/bison是更现代的工具。
最方便的一点是,ANTLR已经替我们写好了常用语言的语法规则,我们已经拥有了常见语言的分析器,可以在其基础上直接做我们想做的事情。网址在[https://github.com/antlr/grammars-v4/]

我们看一些例子吧。曾经火遍大江南北的谭浩强老师的《BASIC语言》还有人记得吗?DOS时代,GW-BASIC和QBasic是系统默认自带的语言,如同Unix上的cc编译器一样。

10 FOR I = 1 TO 10 STEP 1
20 PRINT I
30 NEXT I
40 END

我们来看一下ANTLR中对BASIC语言FOR循环的语法:

// for stmt 2 puts the for, the statment, and the next on 3 lines.  It needs "nextstmt"
forstmt2
   : FOR vardecl EQ expression TO expression (STEP expression)?
   ;

nextstmt
   : NEXT (vardecl (',' vardecl)*)?
   ;

完整的语法在:https://github.com/antlr/grammars-v4/blob/master/basic/jvmBasic.g4

还有更简单的么?有啊,汇编语言:https://github.com/antlr/grammars-v4/blob/master/masm/MASM.g4

言归正题,我们来看第一种大型的语言,C语言2011版的:https://github.com/antlr/grammars-v4/blob/master/c/C.g4

看个类型的吧,C11的还真不少:


typeSpecifier
    :   ('void'
    |   'char'
    |   'short'
    |   'int'
    |   'long'
    |   'float'
    |   'double'
    |   'signed'
    |   'unsigned'
    |   '_Bool'
    |   '_Complex'
    |   '__m128'
    |   '__m128d'
    |   '__m128i')
    |   '__extension__' '(' ('__m128' | '__m128d' | '__m128i') ')'
    |   atomicTypeSpecifier
    |   structOrUnionSpecifier
    |   enumSpecifier
    |   typedefName
    |   '__typeof__' '(' constantExpression ')' // GCC extension
    ;

我们通过语法规则,大致可以估算一下语言的复杂度:

语言 语法行数 地址
C11 926 https://github.com/antlr/grammars-v4/blob/master/c/C.g4
C++14 2353 https://github.com/antlr/grammars-v4/blob/master/cpp/CPP14.g4
Go 1170 https://github.com/antlr/grammars-v4/blob/master/golang/Golang.g4
Java7 1017 https://github.com/antlr/grammars-v4/blob/master/java/Java.g4
Java8 1780 https://github.com/antlr/grammars-v4/blob/master/java8/Java8.g4
Lua 336 https://github.com/antlr/grammars-v4/blob/master/lua/Lua.g4
Pascal 972 https://github.com/antlr/grammars-v4/blob/master/pascal/pascal.g4
Python3 1558 https://github.com/antlr/grammars-v4/blob/master/python3/Python3.g4
Swift 1163 https://github.com/antlr/grammars-v4/blob/master/swift/Swift.g4
ECMA Script 5 1504 https://github.com/antlr/grammars-v4/blob/master/ecmascript/ECMAScript.g4
Erlang 391 https://github.com/antlr/grammars-v4/blob/master/erlang/Erlang.g4
Fortran 77 1363 https://github.com/antlr/grammars-v4/blob/master/fortran77/fortran77.g4
Scala 704 https://github.com/antlr/grammars-v4/blob/master/scala/Scala.g4
SQLite 905 https://github.com/antlr/grammars-v4/blob/master/sqlite/SQLite.g4
Clojure 262 https://github.com/antlr/grammars-v4/blob/master/clojure/Clojure.g4

从词法复杂度上看:

  • C,Java7,Swift,Go这几门语法的复杂度是比较适中的
  • C++和Java 8确实是比较复杂的,比起它们的前辈C和Java 7都变复杂了不少
  • JavaScript和Python3已经比较复杂了
  • Clojure,Lua和Erlang是惊喜,规模小,表现力强

装上玩玩吧

既然ANTLR有这么丰富的例子供我们参考,我们就装一个玩玩吧。
在macOS上,通过Homebrew就可以安装。

在Linux上,通过下面的步骤来安装:

wget http://www.antlr.org/download/antlr-4.6-complete.jar
export CLASSPATH=".:/path/to/antlr-4.6-complete.jar:$CLASSPATH"
alias antlr4='java -jar /path/to/antlr-4.6-complete.jar'
alias grun='java org.antlr.v4.gui.TestRig'

照抄个Hello,World的例子试一下吧:

grammar Hello ;
r : 'hello' ID ;
ID: [a-z]+ ;
WS : [ \t\r\n]+ -> skip ;

都是正则表达式,很容易理解,ID是小写字母组成的,WS是空格制表符回车换行符,空白符过滤掉。

输入antlr4 Hello.g4,就生成了好几个.java文件,调用javac编译一下。成功!

antlr4 Hello.g4
javac *.java

生成的文件,我们快速浏览一下:
第一个,HelloListener.java:

// Generated from Hello.g4 by ANTLR 4.6
import org.antlr.v4.runtime.tree.ParseTreeListener;

/**
  * This interface defines a complete listener for a parse tree produced by
  * {@link HelloParser}.
  */
 public interface HelloListener extends ParseTreeListener {
     /**
      * Enter a parse tree produced by {@link HelloParser#r}.
      * @param ctx the parse tree
      */
     void enterR(HelloParser.RContext ctx);
     /**
      * Exit a parse tree produced by {@link HelloParser#r}.
      * @param ctx the parse tree
      */
     void exitR(HelloParser.RContext ctx);
 }

R是我们刚才定义的语法规则,在进入和退出时,这个接口是提供回调的接口。

Hello.tokens:

T__0=1
ID=2
WS=3
'hello'=1

HelloParser.java是解析器。

你可能感兴趣的:(ANTLR快餐教程(1) - 有好多现成例子啊)