Hive的用户自定义函数UDF开发步骤详解

1、自定义函数的分类:
UDF: one2one  concat/lower   生产上用的最多
UDAF: many2one count/max......
UDTF: one2many  lateral view explode

2、开发流程
新建项目----》导入jar包----》开发函数(继承UDF,重写evaluate。用hadoop的数据类型。)
----》打成jar包----》上传到linux----》上传到hdfs----》进入hive客户端----》
创建UDF函数----》使用函数

3、一个简单的UDF函数

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class TuoMin extends UDF{
	
	public Text evaluate(final Text s){
		if(s==null){
			return null;
		}
		String str=s.toString().substring(0,3)+"*****"+s.toString().substring(8,11);
		return new Text(str);
	}
}



4、创建UDF函数
语法:
CREATE FUNCTION [db_name.]function_name AS class_name
  [USING JAR|FILE|ARCHIVE 'file_uri' [, JAR|FILE|ARCHIVE 'file_uri'] ];

示例:
create function tm as 'com.hive.one.TuoMin' using jar 'hdfs://Linux005:9000/jars/tm.jar';

5、使用函数
hive> select tm('18812636882') from psn;
OK
188*****882
188*****882
188*****882
Time taken: 0.351 seconds, Fetched: 3 row(s)



===========================================================================
开发流程2时使用hdfs上的jar包注册函数,其实还可以使用本地的jar包注册函数。具体如下:

开发流程:
新建项目----》导入jar包----》开发函数(继承UDF,重写evaluate。用hadoop的数据类型。)
----》打成jar包----》上传到linux----》进入hive客户端----》添加jar包
创建UDF函数----》使用函数


添加jar包:
    hive>add jar /root/tuomin.jar;

创建udf函数:
    hive>create function tm as 'com.hive.one.TuoMin';


注意:
    这种方式注册的函数只在当前会话有效,退出会话下次要继续使用该函数必须重新执行“添加jar包”这一步。

 

 

 

你可能感兴趣的:(Hive,数据仓库Hive学习总结)