ANTLR 入门gap

前言

这篇文章是为了让新手能够快速全面的上手学习 ANTLR 的词法,语法解析原理以及其特性。因为自己在学习的过程中,Google了很多ANTLR的教程,不过都没能看太懂,很多概念不能理解,对于新手来说,友好度不够。所以有了这篇文章...
那么这篇文章会从词法,语法分析开始聊起,然后到 ANTLR 是怎么做的,以及它的一些特性功能。

ANTLR v4 简介

ANTLR 是一款强大的语法分析器生成工具,可以用于读取处理执行,翻译结构化的文本或二进制文件。(是不是有一种看到英文的感觉,可以看懂每个字,但是合到一起就不认识了...不过没关系,继续往下看)

说白了, ANTLR 是一个可以生成自动化工具的工具,是比较牛皮的,我举个比较有画面的例子实例化一下:
我们把一只鸡作为原材料读取到一个黑盒中,接着进行处理(分块处理),紧接着执行,翻译(按照叫花鸡菜谱),最终我们可以得到一只香喷喷的叫花鸡。也就是说我们只需要给一只鸡,那么就会自动化出我们想要的叫花鸡.. 额哈,例子不是很恰当哈,不过意思到了。
这就是 ANTLR,它可以生成 自动根据菜谱生成菜的工具,也可以自动根据xx生成xx的工具,这只取决与我们给定的菜谱是什么,ANTLR就可以根据这个菜谱生成出这个一个自动化成产的工具。一些应用场景:Hibernate 的ORM就使用ANTLR来处理HQL语言,Lex Machina 用 ANTLR来分析法律文本,用 ANTLR 对遗留代码进行转换等。

到这你应该对 ANTLR 有了更大的兴趣,趁热打铁,先来看个简单的demo

快速开始

这么聪明的你下载安装肯定不是问题

  1. 创ANTRL语法文件Hello.g4
grammar Hello;  //定义一个名为 Hello 的语法
statement: ID '=' NUM; //匹配类似 a=1 age=100 这样的语句
ID: [a-z]+;   // 定义了一个词法 ID,由小写字母组成
NUM:[0-9]+; // 定义了一个词法 NUM,由数字组成
WS: [ \t\r\n]+ -> skip;  //在进行解析的过程中,忽略掉空格,换行
  1. 生成词法分析器和语法分析器
antlr Hello.g4
  1. 编译 ANTLR 生成的 java 代码
javac *.java
  1. 进行词法,语法解析
    ANTLR 提供了两种方式
  • 通过编写java代码,读取输入,进行词法,语法解析
  • 通过 ANTLR 提供的 TestRig 调试工具直接在终端进行调试(通过反射机制调用编译后的词法,语法解析器的代码实现)
    我们先使用第二种方式来做,第一种在后续会讲到
grun Hello statement -gui  使用 Hello 语法和 statement 规则启动 testRig
 age=10 // 输入待解析的语句
> EOF   //UNIX下 CTRL+D,windows下 CTRL+C 结束匹配

最终就会看到以下结果


ANTLR 入门gap_第1张图片

在这个过程中ANTLR 做了什么事呢?

  1. 定义语法规则
grammar Hello;  //定义一个名为 Hello 的语法
statement: ID '=' NUM; //匹配类似 a=1 age=100 这样的语句
ID: [a-z]+;   // 定义了一个词法 ID,由小写字母组成
NUM:[0-9]+; // 定义了一个词法 NUM,由数字组成
WS: [ \t\r\n]+ -> skip;  //在进行解析的过程中,忽略掉空格,换行

第一行为固定写法,grammar 后面跟着文件名,表明定义了一个什么样的语法,当然你也可以说它定义了一个语言语法(你喜欢的话)。
一个语法是由多个语句组成(例如一个java文件是多个语句组成,eg:import语句,方法语句...)
一个语句由子语句和字符组成,比如 int age = 10; ,这是一个赋值语句,这个语句是由标识符符号 int 和普通符号组成(age, =, 10)

  1. 当我们输入 int age=10,ANTLR 会用词法分析器,将这个输入的字符按照顺序解析成字符(tokens),即:int,age,=,10
  2. ANTLR会拿到词法分析出来的tokens,根据我们定义的语句规则(statement: ID '=' NUM; )进行分析,从而得到最终解析到的语句。如下图


    ANTLR 入门gap_第2张图片

ANTLR语法是一种用于描述其他语言的语法,称之为ANTLR元语言
整个语法分析的过程:

  • 词法分析:把输入的文本转换为词法符号,这种程序是词法分析器(lexer),词法分析器可以将相关的词法符号进行归类,比如Int,ID(标识符)。词法分析器会关注两个东西:词法符号的类型和对应的文本。词法分析器的规则以大写字母开头(ID,NUM)。
  • 语法分析:将词法分析的结果识别成语句结构,并构建出语法分析 树。语法分析器的规则以小写字母开头(statement)

一般实现一种编程语言,就是构建一个程序,这个程序可以读取输入的语句,语句是由词组组成,词组又有子词组和词汇符号组成。
如果一个程序可以分析/执行语句,那么我们就称之为解释器(比如:计算器、读取配置的程序)
如果一个程序可以将一种语言的语句转换成另外一种语言的语句,那么这称之为翻译器

实现一个匹配算术表达式的语法

实现的功能包含基础的操作符(加减乘除),圆括号,整数以及变量,不包含字符串。

  1. 编写ANTLR语法规则。创建 Expr.g4 文件 和 待解析文件 expr.txt
grammar Expr

prog : stat+ //起始规则,语法分析的起点,prog 包含多个 stat 语法
stat: expr NEWLINE
    | ID '=' expr NEWLINE
    | NEWLINE
    ;

expr: expr ('*' | '/') expr
    | expr ('+' | '-') expr
    | INT
    | ID
    | '(' expr ')'
    ;
ID : [a-zA-Z]+;
INT : [0-9]+; //匹配整数
NEWLINE : '\r'? '\n'; //告诉语法分析器一个新行的开始(语句终止符号)
WS : [ \t]+ -> skip;  //匹配的过程中丢弃空白符

'|' 相当于是 switch 的操作(expr规则包含以下几种子规则,子规则中包含了 expr,那么会进行递归操作

  1. 生成词法,语法解析器,查看语法分析树
antlr4 Expr.g4
javac *.java
grun Expr prog -gui
ANTLR 入门gap_第3张图片

到这,我们就生成了一套自己定义的算术计算规则

更多:

  • 可以继续使用 ANTLR 提供的 Listener 或者 Vistor 来实现算数的功能。详见demo/计算器 (待完善)
  • 可以实现翻译的功能(JSON规则转XML文件,java代码语法检测重构)
  • 在规则中内嵌属性和动作(eg:java 属性和方法)

你可能感兴趣的:(ANTLR 入门gap)