【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数

一、炸裂函数UDTF

  将一行数据拆分多行,即制表函数,接收一行数据,输出一行或多行数据。

1 explode

  把一行数组或者键值对数据拆分为多行,返回元素
【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数_第1张图片【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数_第2张图片
语法:

--explode():把一行数组或者键值对数据拆分为多行,返回元素
select explode(array(value1,value2,...)) as item from table_name;
select explode(map(key1,value1,key2,value2,...)) as (key,value) from table_name;

2 posexplode

  pos表示元素在数组中的位置即下标,返回元素及位置(下标)
【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数_第3张图片

--posexplode():pos表示元素在数组中的位置即下标,返回元素及位置(下标)
select posexplode(array(value1,value2,...)) as (pos,item) from table_name;

3 inline

  拆分结构体数据,一个结构体作为一行。
【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数_第4张图片

--inline():一个结构体作为一行
select inline(array(struct(property1,value1_1,property2,value2_1,....),
                    struct(property1,value1_2,property2,value2_2,....),
                    )
             )
as (property1,property2,...)
from table_name;

--:
select inline(
    array(
        named_struct("id",1,"name","zs"),
        named_struct("id",2,"name","ls"),
        named_struct("id",3,"name","ww")
    )
)
as (id,name)
from table_name;

4 Lateral View

  UDTF通常与Lateral View使用。
  Lateral View将UDTF应用到源表的每行数据,把每行数据转换为一行或多行,并将源表中每行的输出结果与该行连接起来,形成一个虚拟表。
【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数_第5张图片

--lateral view:与explode连用
select 
    ...,
    new_col
from table_name lateral view explode(col_name) tmp as new_col;
--把from后当作一个整体,作为虚拟表,tmp为炸出来的表

5 案例

数据准备:
表结构:
【大数据之Hive】十四、Hive-HQL函数之炸裂函数和窗口函数_第6张图片

--建表
create table movie_info(
    movie string,     --电影名称
    category string   --电影分类
) 
row format delimited fields terminated by"\t";

--插入数据
insert overwrite table movie_info
values ("《疑犯追踪》", "悬疑,动作,科幻,剧情"),
       ("《Lie tome》", "悬疑,警匪,动作,心理,剧情"),
       ("《战狼2》","战争,动作,灾难");

需求及实现:

--根据电影信息表,统计各分类(分组聚合)的电影数量:cate cnt
select
    cate,
    count(*) cnt
from(
    select
    movie,
    cate
    from(
        select    --t1表用于分割一个电影的一串类别字符串为类别数组
            movie,
            split(category,',') cates
        from movie_info                 
    )t1 lateral view explode(cates) tmp as cate    --炸裂为虚拟表t2
)t2
group by cate;

二、窗口函数

你可能感兴趣的:(hive,大数据,hive,java)