最近在实时数仓,基本的流程图如下:
我们采用 Antl4 来进行 Mysql 的解析,从效率上来说,解析速度确实有点慢,但简单易于上手,MySqlLexer.g4 和 MySqlParser.g4 都是开源的,所以就可以直接拿来用了。
在这个过程当中遇到了一个问题: antl4 如何返回对象?看到 antl4资料有点少,特地记一下。
我们都知道,Antl4 要想返回值需要采用 visitor 模式,然后定义 MysqlVisitor 类 实现MySqlParserBaseVisitor
。
在此我们实现MySqlParserBaseVisitor
(其中AlterBase,为我们自定义的超类,可以不予关心)。而MySqlParserBaseVisitor 有一个方法叫做 aggregateResult,可以把前后多次对语法树遍历的结果进行 aggregate,示例代码如下:
@Override
protected List<AlterBase> aggregateResult(List<AlterBase> aggregate, List<AlterBase> nextResult) {
// return (aggregate==null?"":aggregate)+(nextResult==null?"":nextResult);
if (aggregate == null) {
aggregate = new ArrayList<>();
}
if (nextResult == null) {
nextResult = new ArrayList<>();
}
aggregate.addAll(nextResult);
return aggregate;
}
然后执行,相应代码即可返回 List
对象。
后记:
Antl4 全称为 Another Tool For Language Recognition 4,语言识别的另外一种工具,为什么叫另外一种工具呢?我的理解,最原生的语言识别工具其实是编译器,通过学习 Antl4 对编译器有一个更加感性的认知,以实时数仓项目为例,Antl4就是一些列的规则组合,把 SQL 语句解析成语法树 ( 编译器也是解析成语法树 ) ,然后通过对语法树的遍历,得到我们自己想要的数据,比如 将 Mysql 的 SQL 解析成 Kudu的 建表、更新、插入等语句。与 Spark SQL 如何转换为 RDD 计算的基本类似,只不过它的转换可能会更加复杂一些 ( Spark SQL 2.x 也是采用 Antl4 解析 SQL 的,这也是我们在项目中采用它的原因之一) ,而 Flink SQL 采用的是 Calcite 来解析 SQL,应该也具有异曲同工之妙。