hive中的爆炸函数( lateral view 与 explode详解)

explode就是将hive一行中复杂的array或者map结构拆分成多行。

lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。

explode将复杂结构一行拆成多行,然后再用lateral view做各种聚合。

例:

select * from tb_split; 

20141018  aa|bb  7|9|0|3 
20141019  cc|dd  6|1|8|5 

使用方式:select datenu,des,type from tb_split  
lateral view explode(split(des,"//|")) tb1 as des 
lateral view explode(split(type,"//|")) tb2 as type 
执行过程是先执行from到as cloumn的列过程,再执行select 和where后边的语句。
   SELECT
        *
    FROM
        ods_aimsen_base_regionhistories lateral VIEW explode(split(ManageBranchNos,'\\}\\{')) tmp
        AS sub

踩坑1:

在正常解析一个有值的字符串时,用lateral view explode是完全ok的,但是,当遇到该字符串为空时,如果在使用该函数,就会导致该条记录消失。具体场景如下: 

sid filterlist
46 NULL

这样的结果就会导致我们漏掉一部分用户的浏览信息,在统计浏览量时数据缺失,结果与实际偏小。 

这时,就要用到lateral view outer explode

lateral view explode这个UDTF转换的Array为空的记录,自动被过滤掉了,如果想要保留记录,需要加上outer关键字。

 select ... from  表名 lateral view outer explode(需炸开的字段)tmp as sub

 

参考文章:

参考一

参考二

参考三

你可能感兴趣的:(hive中的爆炸函数( lateral view 与 explode详解))