【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数

  Hive内置函数:单行函数、聚合函数、炸裂函数、窗口函数。

--查看系统内置函数:
show functions;

--查看内置函数用法:
desc function 函数名;

--查看内置函数详细信息:
desc function extended 函数名;

一、单行函数

  单行函数的特点是一进一出,即输入一行,输出一行;包括算数运算函数、数值函数、字符串函数、日期函数、流程控制函数、集合函数等。

1 算数运算函数

【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数_第1张图片

--按位异或(位同为0,不同为1)
select 2^3;    --10 ^ 11 = 01 = 1

2 数值函数

--round:四舍五入
select rount(3.3);    --3
select rount(-1.5);    --  -2

--ceil:向上取整
select ceil(3.1);    --3
select ceil(-1.5);    --  -1

--floor:向下取整
select floor(4.9);    --4
select floor(-1.3);    --  -2

3 字符串函数

3.1 substring 截取字符串

语法:

-- 一:返回string,返回字符串A从start位置到结尾的字符串
substring(string A, int start);


-- 二:返回string,返回字符串A从start位置开始,长度为len的字符串
substring(string A, int start, int len);

--获取第二个字符以后的所有字符:
select substring('liaoyanxia',2);    -- iaoyanxia

--获取倒数第三个字符以后的所有字符(复数为倒数):
select substring('liaoyanxia',-3);    -- xia

--获取从第5个字符开始,向后取3个字符:
select substring('liaoyanxia',5,3);    -- yan

3.2 replace 全局替换

语法:

-- 返回string,将字符串A中的字符串B替换为C
replace(string A, string B, string C);
select replace('liaoyanxia','l','L');    --Liaoyanxia

3.3 regexp_replace 正则替换

语法:

--返回string,将字符串A中符合Java正则表达式B的部分替换为C,在用到'/'时需要用转义字符'\\'.
regexp_replace(string A, string B, string C);
--将数字用num代替
select regexp_replace('id:120-234','[0-9]+','num');    --id:num-num

3.4 regexp 正则匹配

语法:

--返回boolean,若字符串符合正则表达式则返回true,否则返回false:
select 字符串 regexp 正则表达式;
select 'liaoyanxia' regexp 'liao+';    --true
select 'liaoyanxia' regexp 'liso+';    --false

3.5 repeat 重复字符串

语法:

--返回string,将字符串A重复n遍
select repeat(string A,int n);
select repeat('liaoyanxia',2);    --liaoyanxialiaoyanxia

3.6 split 字符串切割

语法:

--返回array,按照正则表达式pat匹配的内容切割字符串A,切割后的字符串以数组的形式返回。
select split(string A,正则表达式);
select split('a-b-c-d','-');    --["a","b","c","d"]

3.7 nvl 替换null值

语法:

--A的值不为null,则返回A,否则返回B
select nvl(A,B);
select nvl(null,1);    --1

3.8 concat 拼接字符串

语法:

--返回string,将A,B,...等字符串拼接为一个字符串
select concat(string A,string B,...);
select concat('liaoyanxia',' ','is',' ','a',' ','gril');    --liaoyanxia is a gril

3.9 concat_ws 以指定分隔符拼接字符串或者字符串数组

语法:

--返回string,使用分隔符a凭借多个字符串A,B,...,或者一个数组的所有元素
select concat_ws(string a,string A,string B,...);
select concat_ws(' ','liaoyanxia','is','a','gril');    --liaoyanxia is a gril

3.10 get_json_object 解析json字符串

语法:

--返回string,解析json字符串json_string,返回path指定的内容。
--如果输入的json字符串无效则返回null。
select get_json_object(string json_string,string path);
--取json里的数据
select get_json_object('[{"name":zhangsan,"age":"23"},{"name":lisi,"age":"24"}]','$.[0].name');
--zhangsan

4 日期函数

4.1 unix_timestamp 返回当前或指定时间的时间戳

语法:

--返回bigint,把按格式format传进来的日期time转为的时间戳
select unix_timestamp(string time,string format);
select unix_timestamp('2023/05/17 11-37-23','yyyy/MM/dd HH-mm-ss');
--1684323443

4.2 from_unixtime 转化UNIX时间戳为当前时区的时间格式

  到指定时间的秒数。
语法:

--返回当前时区的时间格式string
select from_unixtime(bigint 时间戳);
select from_unixtime(1684323443);    --2023/05/17 11:37:23

4.3 current_date 当前日期及时间

语法:

--获取当前日期
select current_date;

--获取当前日期和时间,精确到毫秒
select current_timestamp;

4.4 获取日期中的月或日或时

语法:

--返回int
--获取月
select month(string date);

--获取日
select day(string date);

--获取小时
select hour(string date);
select month('2023/05/17 11:37:23');    --5
select day('2023/05/17 11:37:23');    --17
select hour('2023/05/17 11:37:23');    --11

4.5 datediff 两个日期相差的天数

语法:

--返回int,结束日期enddate减去开始日期startdate的天数
select datediff(string enddate,string startdate);
select datediff('2023-5-17','2022-5-19');

4.6 date_add & date_sub 日期加减天数

语法:

--返回string,开始日期startdate加减days天后的日期
select date_add(string startdate,int days);
select date_sub(string startdate,int days);
select date_add('2023-5-17',2);    --2023-5-19
select date_sub('2023-5-17',2);    --2023-5-15

4.7 date_format 将标准日期解析成指定格式字符串

语法:

--将日期date按指定格式format返回
select date_format(string date,string format);
select date_format('2023-5-17','yyyy年-MM月-dd日');    --2023-05-17

5 流程控制函数

5.1 case when 条件判断函数

语法:

-- 一、如果condition1为true则返回result1;...;否则返回default_result。
select

    case
        when condition1 then result1
        when condition2 then result2
        ...
        else default_result
    end
from table_name;

-- 二、如果value_0=value_1则返回result1;...;否则返回default_result。
select

    case value_0
        when value_1 then result1
        when value_2 then result2
        ...
        else default_result
    end
from table_name;
select case when 1=2 then 'out:1=2' when 2=2 then 'out:2=2' else 'nothing' end;
select case 2 when 1 then 'out:1=2' when 2 then 'out:2=2' else 'nothing' end;

5.2 if 条件判断

语法:

--类似于Java中三元运算符,符合条件condition时返回valueTrue,否则返回valueFalseOrNull.
select

    if(boolean condition,T valueTrue,T valueFalseOrNull)
from table_name;
select if(10 > 5,'true','false');    --true
select if(10 > 11,'true','false');    --false

6 集合函数

语法:

--size():获取数组或Map类型列的大小
select size(arrayOrMap_column) from table_name;

--map():根据输入的key和value创建map集合。
select map(key1, value1, key2, value2,...);

--map_keys():返回map中的key
select map_keys(map(key1,value1,key2,value2,...));

--map_values():返回map中的value
select map_values(map(key1,value1,key2,value2,...));

--array():声明array集合
select array(value1,value2,...);

--array_contains():判断array中是否包含某个元素a,返回truefalse
select array_contains(array(value1,value2,...),string a);

--sort_array():把array中的元素排序
select sort_array(array(value1,value2,...));

--struct():声明struct中的各种属性根据输入的参数构造结构体struct类
select struct(property1,property2,...);

--named_struct():声明struct的属性和值
select named_struct(property1,value1,property2,value2,...);
select map('beijing',1,'shanghai',2);    --{"beijing":1,"shanghai":2}

select map_keys(map('beijing',1,'shanghai',2));    --["beijing","shanghai"]

select map_values(map('beijing',1,'shanghai',2));    --[1,2]

select array('1','2','3','4');    --["1","2","3","4"]

select array_contains(array('1','2','3','4'),'1');    --true

select sort_array(array('1','2','3','4'));    --["1","2","3","4"]

select struct('name','age','weight');    --{"col1":"name","col2":"age","col3":"weight"}

select named_struct('name','zhangsan','age',18,'weight',65);    --{"name":"zhangsan","age":18,'weight':65}

7 案例

数据准备

表结构:
【大数据之Hive】十三、Hive-HQL函数之单行函数和高级聚合函数_第2张图片

--建表
create table employee(
    name string,    --姓名
    sex string,    --性别
    birthday string ,
    hiredate string,    --入职日期
    job string,    --岗位
    salary double,    --薪水
    bonus double,    --奖金
    friends array<string>,
    children map<string,int>
)
row format delimited fields terminated by '\t';

--插入数据:
insert into employee  
 values('张无忌','男','1980/02/12','2022/08/09','销售',3000,12000,array('阿朱','小昭'),map('张小无',8,'张小忌',9)),
        ('赵敏','女','1982/05/18','2022/09/10','行政',9000,2000,array('阿三','阿四'),map('赵小敏',8)),
       ('宋青书','男','1981/03/15','2022/04/09','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),
       ('周芷若','女','1981/03/17','2022/04/10','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),
       ('郭靖','男','1985/03/11','2022/07/19','销售',2000,13000,array('南帝','北丐'),map('郭芙',5,'郭襄',4)),
       ('黄蓉','女','1982/12/13','2022/06/11','行政',12000,null,array('东邪','西毒'),map('郭芙',5,'郭襄',4)),
       ('杨过','男','1988/01/30','2022/08/13','前台',5000,null,array('郭靖','黄蓉'),map('杨小过',2)),
       ('小龙女','女','1985/02/12','2022/09/24','前台',6000,null,array('张三','李四'),map('杨小过',2))

需求及实现:

--统计每个月的入职人数:month cnt   (有问题)
select 
    month(replace(hiredate,'/','-')) month,
    count(*) cnt
from employee
group by month(replace(hiredate,'/','-'));


--查询每个人的年龄(年 + 月):name age
select
    name,
    concat(floor(datediff(current_date,birthday)/365),'年'datediff(current_date,birthday)%12,'月') age
from employee;
    

--按照薪资,奖金的和进行倒序排序,如果奖金为null,置位0:name sal
select 
    name,
    salary+nvl(bonus,0) sal
from employee
order by sal desc; 


--查询每个人有多少个朋友:name cnt
select
    name,
    size(friends) cnt
from employee;

--查询每个人的孩子的姓名:name ch_name
select
    name,
    map_keys(children) ch_name
from employee;

--查询每个岗位男女各多少人:job male female
select
    job,
    sum(if(sex='男',1,0)) male,
    sum(if(sex='女',1,0)) female
from employee
group by job;

二、高级聚合函数

1 概述

多进一出,即多行输入,一行输出。
语法:

--普通聚合
select count(*) from table_name;
select max(col_name) from table_name;
select min(col_name) from table_name;
select sum(col_name) from table_name;
select avg(col_name) from table_name;

--collect_list():收集并形成list集合,结果不去重。
select collect_list(col_name) from table_name;

--collect_set():收集并形成set集合,结果去重。
select collect_set(col_name) from table_name;

2 案例

--求每个月入职的人数及姓名
select 
    month(replace(hiredate,'/','-')) month,
    count(*) cnt,
    collect_list(name) names
from employee
group by month(replace(hiredate,'/','-'));

你可能感兴趣的:(hive,hive,hadoop,hdfs,sql,数据库)