Hive之函数
查看内置函数: show functions;
显示函数的详细信息: desc function abs;
显示函数的扩展信息: desc function extended concat;
一、关系运算:
1. 等值比较: =
2. 等值比较:<=>
3. 不等值比较: <>和!=
4. 小于比较: <
5. 小于等于比较: <=
6. 大于比较: >
7. 大于等于比较: >=
8. 区间比较
9. 空值判断: IS NULL
10. 非空判断: IS NOT NULL
11. LIKE 比较: LIKE
12. JAVA 的 LIKE 操作: RLIKE
13. REGEXP 操作: REGEXP
二、数学运算:
1. 加法操作: +
2. 减法操作: –
3. 乘法操作: *
4. 除法操作: /
5. 取余操作: %
6. 位与操作: &
7. 位或操作: |
8. 位异或操作: ^
9.位取反操作: ~
三、逻辑运算:
1. 逻辑与操作: AND 、&&
2. 逻辑或操作: OR 、||
3. 逻辑非操作: NOT、!
四、复合类型构造函数
1. map 结构
2. struct 结构
3. named_struct 结构
4. array 结构
5. create_union
五、复合类型操作符
1. 获取 array 中的元素
2. 获取 map 中的元素
3. 获取 struct 中的元素
六、数值计算函数
1. 取整函数: round
2. 指定精度取整函数: round
3. 向下取整函数: floor
4. 向上取整函数: ceil
5. 向上取整函数: ceiling
6. 取随机数函数: rand
7. 自然指数函数: exp
8. 以 10 为底对数函数: log10
9. 以 2 为底对数函数: log2
10. 对数函数: log
11. 幂运算函数: pow
12. 幂运算函数: power
13. 开平方函数: sqrt
14. 二进制函数: bin
15. 十六进制函数: hex
16. 反转十六进制函数: unhex
17. 进制转换函数: conv
18. 绝对值函数: abs
19. 正取余函数: pmod
20. 正弦函数: sin
21. 反正弦函数: asin
22. 余弦函数: cos
23. 反余弦函数: acos
24. positive 函数: positive
25. negative 函数: negative
七、集合操作函数
1. map 类型大小:size
2. array 类型大小:size
3. 判断元素数组是否包含元素:array_contains
4. 获取 map 中所有 value 集合
5. 获取 map 中所有 key 集合
6. 数组排序
八、类型转换函数
1. 二进制转换:binary
2. 基础类型之间强制转换:cast
九、日期函数
1. UNIX 时间戳转日期函数: from_unixtime
2. 获取当前 UNIX 时间戳函数: unix_timestamp
3. 日期转 UNIX 时间戳函数: unix_timestamp
4. 指定格式日期转 UNIX 时间戳函数: unix_timestamp
5. 日期时间转日期函数: to_date
6. 日期转年函数: year
7. 日期转月函数: month
8. 日期转天函数: day
9. 日期转小时函数: hour
10. 日期转分钟函数: minute
11. 日期转秒函数: second
12. 日期转周函数: weekofyear
13. 日期比较函数: datediff
14. 日期增加函数: date_add
15. 日期减少函数: date_sub
十、条件函数
1. If 函数: if
2. 非空查找函数: COALESCE
3. 条件判断函数:CASE
十一、字符串函数
1. 字符 ascii 码函数:ascii
2. base64 字符串
3. 字符串连接函数:concat
4. 带分隔符字符串连接函数:concat_ws
5. 数组转换成字符串的函数:concat_ws
6. 小数位格式化成字符串函数:format_number
7. 字符串截取函数:substr,substring
8. 字符串截取函数:substr,substring
9. 字符串查找函数:instr
10. 字符串长度函数:length
11. 字符串查找函数:locate
12. 字符串格式化函数:printf
13. 字符串转换成 map 函数:str_to_map
14. base64 解码函数:unbase64(string str)
15. 字符串转大写函数:upper,ucase
16. 字符串转小写函数:lower,lcase
17. 去空格函数:trim
18. 左边去空格函数:ltrim
19. 右边去空格函数:rtrim
20. 正则表达式替换函数:regexp_replace
21. 正则表达式解析函数:regexp_extract
22. URL 解析函数:parse_url
23. json 解析函数:get_json_object
24. 空格字符串函数:space
25. 重复字符串函数:repeat
26. 左补足函数:lpad
27. 右补足函数:rpad
28. 分割字符串函数: split
29. 集合查找函数: find_in_set
30. 分词函数:sentences
31. 分词后统计一起出现频次最高的 TOP-K
32. 分词后统计与指定单词一起出现频次最高的 TOP-K
十二、混合函数
1. 调用 Java 函数:java_method
2. 调用 Java 函数:reflect
3. 字符串的 hash 值:hash
十三、XPath 解析 XML 函数
1. xpath
2. xpath_string
3. xpath_boolean
4. xpath_short, xpath_int, xpath_long
5. xpath_float, xpath_double, xpath_number
十四、汇总统计函数(UDAF)
1. 个数统计函数: count
2. 总和统计函数: sum
3. 平均值统计函数: avg
4. 最小值统计函数: min
5. 最大值统计函数: max
6. 非空集合总体变量函数: var_pop
7. 非空集合样本变量函数: var_samp
8. 总体标准偏离函数: stddev_pop
9. 样本标准偏离函数: stddev_samp
10.中位数函数: percentile
11. 中位数函数: percentile
12. 近似中位数函数: percentile_approx
13. 近似中位数函数: percentile_approx
14. 直方图: histogram_numeric
15. 集合去重数:collect_set
16. 集合不去重函数:collect_list
十五、表格生成函数 Table-Generating Functions (UDTF)
1.数组拆分成多行:explode(array)
2.Map 拆分成多行:explode(map)
1、查看系统自带的函数
hive (mydb)> show functions;
3、显示自带的函数的用法
hive (mydb)> desc function date_add;
hive (myhivedb2)> desc function extended date_add;
hive (mydb)> select date_add('2021-08-14',-1);
OK
_c0
2021-08-13
Time taken: 0.678 seconds, Fetched: 1 row(s)
3、详细显示自带的函数的用法
desc function extended date_add;
4、一些其他的常见的操作
hive> select if(true,'a','b');
OK
a
Time taken: 0.02 seconds, Fetched: 1 row(s)
hive> select if(false,'a','b');
OK
b
Time taken: 0.02 seconds, Fetched: 1 row(s)
hive> select date_sub('2021-08-14',1);
OK
2021-08-13
Time taken: 0.03 seconds, Fetched: 1 row(s)
hive> select date_add('2021-08-14',-1);
OK
2021-08-13
Time taken: 0.031 seconds, Fetched: 1 row(s)
hive> select concat_ws("_","lisi","wangwu","zhaoliu");
OK
lisi_wangwu_zhaoliu
Time taken: 0.021 seconds, Fetched: 1 row(s)
hive> select concat_ws("_","lisi","wangwu");
OK
lisi_wangwu
Time taken: 0.041 seconds, Fetched: 1 row(s)
hive> select concat("_","lisi","wangwu");
OK
_lisiwangwu
Time taken: 0.019 seconds, Fetched: 1 row(s)
hive> desc function extended coalesce;
OK
coalesce(a1, a2, ...) - Returns the first non-null argument
Example:
> SELECT coalesce(NULL, 1, NULL) FROM src LIMIT 1;
1
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFCoalesce
Function type:BUILTIN
Time taken: 0.002 seconds, Fetched: 6 row(s)
hive> SELECT coalesce(NULL, 1, NULL);
OK
1
Time taken: 0.036 seconds, Fetched: 1 row(s)
hive> SELECT coalesce(8, 1, NULL);
OK
8
Time taken: 0.015 seconds, Fetched: 1 row(s)
hive> desc function extended array;
OK
array(n0, n1...) - Creates an array with the given elements
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFArray
Function type:BUILTIN
Time taken: 0.002 seconds, Fetched: 3 row(s)
hive> select array(1,2,3,4);
OK
[1,2,3,4]
Time taken: 0.031 seconds, Fetched: 1 row(s)
hive> select explode(array(1,2,3,4));
OK
1
2
3
4
Time taken: 0.031 seconds, Fetched: 4 row(s)
hive> desc function extended map;
OK
map(key0, value0, key1, value1...) - Creates a map with the given key/value pairs
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFMap
Function type:BUILTIN
Time taken: 0.005 seconds, Fetched: 3 row(s)
hive> select map("a",1,"b",2,"c",3);
OK
{"a":1,"b":2,"c":3}
Time taken: 0.036 seconds, Fetched: 1 row(s)
hive> select explode(map("a",1,"b",2,"c",3));
OK
a 1
b 2
c 3
Time taken: 0.045 seconds, Fetched: 3 row(s)
官方文档参考:https://cwiki.apache.org/confluence/display/Hive/HivePlugins
当 Hive 提供的内置函数无法满足业务处理需要时,此时就可以考虑使用用户自定义函数
UDF(User-Defined Function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)
UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max)
UDTF(表格生成函数 User-Defined Table Functions):接收一行输入,输出多行(explode)
UDF案例
依赖:
org.apache.hive
hive-exec
3.1.2
1、先开发一个简单的 java 类,继承 org.apache.hadoop.hive.ql.exec.UDF,重载 evaluate 方法
public class ToLowerCase extends UDF {
// 必须是 public,并且 evaluate 方法可以重载
public String evaluate(String field)
{
String result = field.toLowerCase();
return result;
}
}
2、打成 jar 包上传到服务器 /home/data/hive-1.0-SNAPSHOT.jar
3、将 jar 包添加到 hive 的 classpath
hive>add JAR /home/data/hive-1.0-SNAPSHOT.jar;
4、查看加入的 jar 的命令: hive> list jar;
5、创建临时函数与开发好的 class 关联起来
hive>create temporary function tolowercase as 'com.aa.hive.udf.ToLowerCase';
6、至此,便可以在 hql 在使用自定义的函数
hive> select tolowercase("ABC");
在数仓项目中结合具体业务再学习。
详见《Hive窗口分析函数全解》。
声明:
文章中代码及相关语句为自己根据相应理解编写,文章中出现的相关图片为自己实践中的截图和相关技术对应的图片,若有相关异议,请联系删除。感谢。转载请注明出处,感谢。
微博地址: http://weibo.com/luoyepiaoxue2014 点击打开链接