Calcite中定制自已SQL解析器

不想看文章直接访问https://github.com/yuqi1129/schema/tree/master/mysql-protocol
(Java版本的Mysql)、https://github.com/yuqi1129/calcite-test，这里有关于JavaCC使用具体用例

1. 什么Sql Parser

所谓Sql Parser, 就是根据某种特定的定义而生成的Sql 语法解析器。打个比方: 在计算器中输入 1 + 2 = 之所以可以得到结果3是因为是计算器可以准确地根据上述字符解析出相应的输入参数与算法，进而计算到最终的结果。如果输入的是1 +- 2 = 计算器可能就会提示错误，这其实就是类似于SQL中提示语法错误，而在处理SQL的过程与处理上面的例子很类似, 可见我们需要定制相应的语法规则进而解析SQL。

2. Java CC

熟悉ANTRL的同学应该知道.g文件的作用，在Calcite中与之对就是JavaCC（关于什么是JavaCC，可以自行Google), 通过JavaCC文件Calcite可以定义如何去解析传入的SQL语法

3. Calcite 内置语法解析

现在就以一上简单的例子介绍一下Calcite 默认语法解析

    SchemaPlus rootSchema = Frameworks.createRootSchema(true);
    final FrameworkConfig config = Frameworks.newConfigBuilder()
            .parserConfig(SqlParser.configBuilder()
                    .setParserFactory(SqlParserImpl.FACTORY)
                    .setCaseSensitive(false)
                    .setQuoting(Quoting.BACK_TICK)
                    .setQuotedCasing(Casing.TO_UPPER)
                    .setUnquotedCasing(Casing.TO_UPPER)
                    .setConformance(SqlConformanceEnum.ORACLE_12)
                    .build())
            .build();
                
    
    
    String sql = "select ids, name from test where id < 5 and name = 'zhang'";
    SqlParser parser = SqlParser.create(sql, config.getParserConfig());
    try {
        SqlNode sqlNode = parser.parseStmt();
        System.out.println(sqlNode.toString());
    } catch (Exception e) {
        e.printStackTrace();
    }

以上为Calcite 内置关于parser的过程，详细代码见代码

现在简要的介绍以上代码:

parserConfig() 是设置ParserFactory, calcite内置Parser类为SqlParserImpl，这个类的代码全部是由JavaCC生成，比较大，大约在7w行左右，不要试图去看懂这个类，因为基本上不会有人会看懂(如果有人看懂了，私下交流请你吃饭)，也没有必要，后面我们会介绍如何用JavaCC生成对应的Parser类
语法参数设置
- setCaseSensitive() 大小是写否敏感，比如说列名、表名、函数名
- setQuoting() 设置引用一个标识符，比如说MySQL中的是``, Oracle中的""
- setQuotedCasing Quoting策略，不变，变大写或变成小写，代码中的全部设置成变大写
- setUnquotedCasing 当标识符没有被Quoting后的策略，值同上
更多可以更以参考Calcite类Lex, 你也可以直接设置成MySQL、Oracle、MySQL_ANSI语法，如果需要定制化的话可以单独设置上面4个参数
ParserConfig中其它需要注意的参数
- setIdentifierMaxLength() 设置标识符的最大长度，如果你的列名、表较长可以相应的加大这个值
- setConformance() 特定语法支持，比如是否支持差集等

日常使用中，一般使用默认配置即可, 除非对语法有特殊需求

注意: Parser只会解析SQL, 不会去验证SQL是否正确，可能这么说有点矛盾，有人会想parser难道不会检查语法正确与否吗？我的回答是、也不是。上面的例子如果有人执行了之后发现居然可以通过，而在代码中我们并没有明确表名、列名、列信息之类，为什么不会报错？
因为 Calcite parser 只会识别关键字(Keyword)与标识符(Identifier)，上面Sql关键字有select、from、where、<、=，其他为标识符，即Parsr会规定关键字与标识符的相对位置是否正确，不会关心标识符的值是否存在、是否正确，至于什么时候会检查标识符--会在Validator阶段

4. 创建自已parser

在3中我们使用Calcite内置的Parser Class, 假如有这样一个需求，要支持"submit job as 'select * from test'", 如果仍使用默认Parser，上述代码就会执行有问题，见代码, 那么如何支持该语法?

第一步: 工程中引入Calcite 的JavaCC文件parser.jj, 如下图

parser.jj

修改config.fmpp中关class 名为自已近parser class 名，如YuqiSqlParserImpl

第二步: 添加对应的SqlSubmit SqlNode, 关于如何扩展SqlNode, 请仔细读阅读 SqlSelect等SqlNode类

public class SqlSubmit extends SqlNode {

    String jobString;

    public SqlSubmit(SqlParserPos pos, String jobString) {
        super(pos);
        this.jobString = jobString;
    }
    
    public String getJobString() {
        return jobString;
    }
}

第三步: 修改parser.jj 文件, 添加以下内容

...
import org.apache.calcite.sql.SqlSubmit;
...
...


SqlNode SqlSubmit() :
{
     SqlNode stringNode;
}
{
      
    stringNode = StringLiteral()
    {
        return new SqlSubmit(getPos(), token.image);
    }
}


...

SqlNode SqlStmt() :
{
    SqlNode stmt;
}
{
    ...
    
    | stmt = SqlSubmit()
    ...
}


 TOKEN :
{
    ...
    | 
    | 
    ...
}

第四步: 引入JavaCC编译插件

详细参考代码中的pom文件

第五步：在代码引入刚刚设置的parser 类

import org.apache.calcite.sql.parser.impl.YuqiSqlParserImpl;
...

public class ParserTest {
...
    .setParserFactory(YuqiSqlParserImpl.FACTORY))
}

第六步：编译整个项目，最终可以在Target目录下可以看到以下文件, 然后将javacc 目录设置成Generated Source Root, 现在你可以愉快的进行测试了

生成的类

最终的结果可以参考文件, 运行时请先mvn编译一下，以后只要修改了Parser.jj文件都要重新编译才能生效

5. 相关问题说明

由于知道JavaCC读者可以比较少，关于JavaCC，我会专门针对这个出一个分享,如何在Calcite使用JavaCC
全部的代码在我的github项目中，有需要的读者请自行去fork与阅读(觉得本文有用不要忘了star一下哈)
由于本人使用Calcite时间不长，其中难免有错误之处，请读者不吝指出，相互学习，也欢迎来交流Calcite，本人邮件: [email protected]