Hive中UDF编程

UDF介绍及编程要点

Hive中自带了许多函数,方便数据的处理分析。但是有时候没有内部的函数来提供想要的功能,需要自定义函数(UDF)来实现想要的功能。

编写UDF需要下面两个步骤

  1. 继承org.apache.hadoop.hive.ql.UDF
  2. 实现evaluate函数,这个函数必须要有返回值,不能设置为void。同时建议使用mapreduce编程模型中的数据类型(Text,IntWritable等),因为hive语句会被转换为mapreduce任务。

针对具体问题实现UDF步骤

  1. 首先配置eclipse环境。创建maven项目后,在pom.xml中添加依赖。
  
    UTF-8
    2.5.0
  

  
    
        org.apache.hadoop
        hadoop-client
        2.5.0
    
  
    
        org.apache.hive
        hive-jdbc
        0.13.1
    

    
        org.apache.hive
        hive-exec
        0.13.1
    
    
    
      junit
      junit
      3.8.1
      test
    
  
  1. 针对实际问题分析需求
    需求: 去除下列数据字段中的双引号


    hive1.png
  2. 编写UDF代码及本地测试
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
/*
 * 去除字符串中的双引号
 */
public class signUDF extends UDF {
    public Text evaluate(Text string) {
        // 过滤
        if (null == string) {
            return null;
        }
        // 用来保存最后结果
        Text result;
        // 替换字符串的双引号为空
        String s = string.toString().replaceAll("\"", "");
        // 用中间结果生成返回值
        result = new Text(s);
        return result;
    }
}

测试如下
输入:"wulei" "www"
输出:wulei www


Hive中UDF编程_第1张图片
hive2.png
  1. 打成jar包在hive中测试
  • 打成jar包上穿至Linux中


    Hive中UDF编程_第2张图片
    hive3.png
  • 关联jar包

hive (default)> add jar /opt/datas/signuUDF.jar;
Added /opt/datas/signuUDF.jar to class path
Added resource: /opt/datas/signuUDF.jar

  • 创建方法(退出hive shell后将失效)

hive (default)> create temporary function my_udf as "hiveUDF.hiveUDF.signUDF";
OK
Time taken: 0.039 seconds

  • 永久添加UDF的方法:配置hive-site.xml文件中的hive.aux.jars.path(辅助jar路径)属性,属性值为jar包的绝对路径
  • 验证自定义函数

hive (test_db)> select * from test1;
OK
test1.ip test1.source
"192.168.200.5" "/wulei/in"
"192.168.200.4" "/wulei/out"
hive (test_db)> select my_udf(ip) from test1;
MapReduce Jobs Launched:
Job 0: Map: 1 Cumulative CPU: 1.7 sec HDFS Read: 276 HDFS Write: 28 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 700 msec
OK
_c0
192.168.200.5
192.168.200.4
Time taken: 41.616 seconds, Fetched: 2 row(s)

你可能感兴趣的:(Hive中UDF编程)