Hive/SparkSQL中UDF/UDTF/UDAF的含义、区别、有哪些函数

Hive官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inTable-GeneratingFunctions(UDTF)

1.UDF(User-Defined Function)

含义
即用户定义函数,UDF用于处理一行数据并返回一个标量值(单个值),这个值可以是字符串、数字、日期等。通常用于在查询中对每一行数据进行自定义的计算或转换。UDF函数的输入与输出值是1:1关系。

用途示例
计算日期之间的差异、字符串处理、数据格式化等

有哪些函数
datediff()、substr()、concat()等

原理图示

Hive/SparkSQL中UDF/UDTF/UDAF的含义、区别、有哪些函数_第1张图片

2.UDAF(User-Defined Aggregate Function)

含义
即用户定义聚集函数,UDAF用于执行自定义的聚合操作,作用于多行数据,并且产生一个输出数据行,UDAF函数的输入与输出值是n:1的关系。

用途示例
计算平均值、累计总和、计数等

有哪些函数
avg()、sum()、count()等

原理图示

Hive/SparkSQL中UDF/UDTF/UDAF的含义、区别、有哪些函数_第2张图片

3.UDTF(User-Defined Table Function)

含义
即用户定义表生成函数,UDF作用于单行数据,并且产生多个数据行。UDTF函数的输入与输出值是1:n的关系。

用途示例
将array炸开成多行、将map中的数据解为多行

有哪些函数
explode()、posexplode()、json_tuple()等

原理图示

Hive/SparkSQL中UDF/UDTF/UDAF的含义、区别、有哪些函数_第3张图片

你可能感兴趣的:(hive,hadoop,数据仓库)