这篇文章介绍下如何创建一个简单的自定义Hive函数并在如何Hive中使用它,其实Hive语法还挺不简单,这里我们只提供一个思路,一个常规的开发实例供大家参考。
1, Java程序编写自定义函数
import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import java.util.HashMap;
import java.util.Map;
// 自定义类一定要继承hive提供的UDF类
public class MyTestUDF extends UDF {
private static final Map areaMap = new HashMap();
static {
areaMap.put("135", "福建");
areaMap.put("138", "北江");
areaMap.put("139", "上海");
}
/**
* 根据手机号获取归属地 注意是public公共方法,否则hive shell客户端调用失败
*/
public String evaluate(String phoneNum) {
if(StringUtils.isBlank(phoneNum) || phoneNum.length() < 3){
return "";
}
String area = areaMap.get(phoneNum.substring(0, 3));
return area == null? "???":area;
}
2 , 打包上传至linux某个路径下
3, 在linux上 Hive shell客户端获取并执行jar包(关于使用Hive shell之前博客介绍)
hive> add jar '/usr/app/TestUDF.jar' ;
4, 创建Hive函数,在Hive shell客户端下输入 :
hive> create temporary function getarea as 'com.wangh.test.TestUDF(你程序中类路径)';
5 , 建表 ,shell客户端下输入 :
hive> create table t_flow(phoneNum string,upflow int , downflow int)
> row format delimited
> fields terminated by ','
> ;
6 , 创建一个文件 data.txt 并在shell中把它传到 t_flow表中。
1389990045,222,2000
1385566005,888,2000
1385566005,999,2000
hive> load data local inpath '/usr/app/flow.data' into table t_flow ;
7 , 使用函数
hive> select phoneNum,getarea(),upflow from t_flow ;
完毕 !