Hive自定义函数心得体会

hive自定义函数分为UDF、UDAF、UDTF函数的使用。

       UDF函数的使用主要是针对于单列的操作,UDAF函数主要是针对于多行转单行的操作常用于统计计算。UDTF函数主要是针对于单行转多行的场景,主要是为了解决一些负责的业务场景,需要对字段进行切割。

UDF函数主要是针对单列数据进行处理,只需要继承UDF类,实现evaluate 方法即可,在该方法中也可以指定输入参数类型,输出参数类型,根据自己的业务逻辑进行相关处理就可以了。

UDAF函数是多行转单行的操作,主要的操作就是针对一些统计分析,求最值等一些操作。具体实现是需要实现 init、iterate、terminatePartial、merge、terminate 方法即可,详情参考demo。 

UDTF函数是单行转多行的操作,主要的操作就是针对一些行转列的一些操作哦!具体实现是必须通过继承抽象类GenericUDTF,并且要实现initialize, process,close 函数。hive将通过initialize方法来获取UDTF函数要求的参数类型然后返回与UDTF函数输出行对象相应的Inspector。initialize使用PrimitiveObjectInspector来解析输入的数据,同时定义输出对象Inspector所需要的field。process函数实现具体的数据解析过程,在通过stringIO获取输入字段,程序中使用parseInputRecord方法将json字符串解析成多个字符,将返回一个List完成一行转多行的任务。最后forward将多行数据做udtf函数的输出。

 

注意:

        如果能用sql进行替代实现的,尽可能得还是用sql进行替代,因为这个自定义函数,比较慢,影响程序的运行性能。

 

点击参看示例demo

udtf函数讲解参考:https://www.jianshu.com/p/ac352ceab9cd

你可能感兴趣的:(Hive,大数据)