将一行数据拆分多行,即制表函数,接收一行数据,输出一行或多行数据。
--explode():把一行数组或者键值对数据拆分为多行,返回元素
select explode(array(value1,value2,...)) as item from table_name;
select explode(map(key1,value1,key2,value2,...)) as (key,value) from table_name;
--posexplode():pos表示元素在数组中的位置即下标,返回元素及位置(下标)
select posexplode(array(value1,value2,...)) as (pos,item) from table_name;
--inline():一个结构体作为一行
select inline(array(struct(property1,value1_1,property2,value2_1,....),
struct(property1,value1_2,property2,value2_2,....),
)
)
as (property1,property2,...)
from table_name;
--如:
select inline(
array(
named_struct("id",1,"name","zs"),
named_struct("id",2,"name","ls"),
named_struct("id",3,"name","ww")
)
)
as (id,name)
from table_name;
UDTF通常与Lateral View使用。
Lateral View将UDTF应用到源表的每行数据,把每行数据转换为一行或多行,并将源表中每行的输出结果与该行连接起来,形成一个虚拟表。
--lateral view:与explode连用
select
...,
new_col
from table_name lateral view explode(col_name) tmp as new_col;
--把from后当作一个整体,作为虚拟表,tmp为炸出来的表
--建表
create table movie_info(
movie string, --电影名称
category string --电影分类
)
row format delimited fields terminated by"\t";
--插入数据
insert overwrite table movie_info
values ("《疑犯追踪》", "悬疑,动作,科幻,剧情"),
("《Lie tome》", "悬疑,警匪,动作,心理,剧情"),
("《战狼2》","战争,动作,灾难");
需求及实现:
--根据电影信息表,统计各分类(分组聚合)的电影数量:cate cnt
select
cate,
count(*) cnt
from(
select
movie,
cate
from(
select --t1表用于分割一个电影的一串类别字符串为类别数组
movie,
split(category,',') cates
from movie_info
)t1 lateral view explode(cates) tmp as cate --炸裂为虚拟表t2
)t2
group by cate;