使用Hive内置的解析器构建血缘关系

背景

最近在做数据血缘关系相关的工作,最初级的版本我们是通过执行计划分析出表到表的计算关系。有同事在看了之后提出,希望能给一个字段到字段的计算关系出来,所以我们做了一些尝试,到今天为止算是有一个大概的东西出来。仓库组的HiveQL一般情况下是写好后,定时调度SparkSQL来执行的。这些HiveQL格式都差不多的样子

insert overwrite table name partition(partition info) select columninfo from table or sql

所以我想,针对这类的HiveQL,我们用Hive的解析器得到语法树,然后遍历语法树得到字段与字段的计算关系。

解析器

Hive的解析器是基于Antlr4的,把SQL扔给这个解析器返回的就是ASTNode为根节点的一棵树,我们写好遍历器,就可以把要解析的东西拿出来了。鉴于我们要的是表和表的依赖关系,以及字段之间的依赖关系,所以关于Where,Group by,Order by等等不影响结果的部分都不做介绍,只把关注点集中在Select From Join Union上。每个人做的时候应该有自己的想法,按照自己想法做,避免被我的思维方式带到沟里,所以代码是不会贴的,只是把HiveQL解析出的语法树关键点的特征罗列一下。

语法树特征

我用几种SQL的片段来做例子,把解析到的结果用echarts的树图展现出来,方便理解。所有的HiveQL解析出的语法树根节点都是EMPTY节点,每个查询语句最后解析出的都是EMPTY节点下的一个TOK_QUERY节点,不再冗述。

带*的查询

语句

insert overwrite table dest_table partition(dt='{0}') select * from db_name.table_name;

解析结果

带星的查询

结果分析

首先,我们可以看到,根节点是一个空节点,然后空节点下面试TOK_QUERY节点。此节点分成了两部分:TOK_INSERT 结果集子节点和TOK_FROM数据来源子节点。
TOK_INSERT:中有两个子节点TOK_DETINATION表示数据要写到哪里去,TOK_SELECT表示选处的结果集中每个字段是如何计算得到的。注意TOK_SELECT下面的TOK_SELEXPR表示的是每个字段,TOK_SELEXPR下面才是这个字段的结果过程,本例中结果集的 * 用一个TOK_ALLCOLREF节点表示。
TOK_FROM: 节点表示的是表或者子SQL是如何关联或Union的。在这个例子里,我们看到的信息还不多,制之后TOK_FROM下面可以有TOK_TABREF这个类型(它表示一张具体的数据表)

多表关联

语句

insert overwrite table dest_table partition(dt='{0}') 
    select * from db_name.table_name_1 t1
                 join db_name.table_name_2 t2 on t1.a = t2.a
                 join db_name.table_name_3 t3 on t2.b = t3.b

解析结果

多表关联

结果分析

这个例子我们不关心结果集部分,只看多表关联。TOK_FROM节点下,是一个TOK_JOIN节点,表示数据来自两个源(有可能是子查询,有可能是表)的关联。TOK_JOIN下面是一个TOK_JOIN,一个TOK_TABREF和一个EQUAL,表示当前TOK_JOIN是由另外两表关联后,再与第三表关联得到的。EQUAL就是关联条件。看到这里,我们也就明白了,尽管我们写了多个表的join,但是HiveQL解析器会把数据表选择两个做一次关联,然后再去关联第三个……以此类推。

多种字段计算

语句


insert overwrite table dest_table partition(dt='{0}') 
select 
    t1.a as t1a , 
    func(t2.a) as t2a ,  --假装我是UDF好了
    case t3.a when 1 then 100 when 2 then 200 else 300 end as t3a_1,
    case when t3.a > 100 then 1 when t3.a < 100 then -1 else 0 end as t3a_2,
    (t1.a  + 2) * t3.a as expr
from db_name.table_name_1 t1 
        join db_name.table_name_2 t2 on t1.a = t2.a
        join db_name.table_name_3 t3 on t2.b = t3.b;

解析结果

多字段计算

结果分析

需要特殊注意的一点是两种不同的case when语句形式得到的节点略有不同

带Union的

语句

insert overwrite table dest_table partition(dt='{0}') 
select * from (
  select a from table_a 
  union all 
  select a from table_b  
  union all 
  select a from table_c
) t;

解析结果

UNION语句

结果分析

UNION也是先两个表UNION,然后再UNION第三个表得到结果的。

总结

看到这里,估计大家对AST树的内部构造有一个大致的了解了,那么后续的工作中可以根据自己的需求,来做相关的解析逻辑。我自己写了一个AST树的遍历工具,然后把树的结构按照echarts里的树图组织一下输出出来,遇到问题的时候就把这个输出的结果贴到echarts的demo页面里,看看解析结果和我解析代码是否有不一致的情况,对分析AST树还是很有帮助的。

子查询的情况没有介绍,其实都差不多,各位可以自行尝试一下

你可能感兴趣的:(使用Hive内置的解析器构建血缘关系)