使用Python通过Hive的Streaming来写UDF的一些记录

使用Python通过Hive的Streaming来写UDF的一些记录

      最近使用Hive来统计数据,用了pyhs2来实现查询,但是有些复杂的处理比如,自定义对域名的处理等,不能通过hql来实现,发现能够使用udf。

      Java来实现Hive的写法  

package jsl.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public  final  class DomainRoot  extends UDF {
     public Text evaluate(Text s) {
         if (s ==  null) { return  null;}
        String tmp = s.toString();
        tmp =  this.getDomainRoot(tmp);
         return  new Text(tmp);
    }   

     private String getDomainRoot(String domain) {
         throw NoneImplementException("xxxx");
    }   
}

如果Java的UDF需要当成常用的,不用每次add可以注册到Hive中,
ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java中加入
registerUDF("domain_root", UDFParseUrl.class, false);并重新编译hive即可


   下面来说说重点,通过Streaming用Python来写处理。
   关于Streaming的基础内容:

使用Transform来指定列,以及使用AS来指定生成的列以及可以指定转换生成列的类型
hive> select transform(col1, clo2) 
    > using '/bin/cat' as (new_clo1 int, new_clo2 double) from table;

   约束:首先必须add file到hive中(当python中引用了其他如自己写的模块时,也需要一并add进去)
            其次非常不幸,在单独的一个查询中,不能够使用UDAF的函数如sum()
            再次不得为中间结果数据使用cluster by或distribute by

注意:对于优化查询,使用cluster by或distribute by 和sort by一起非常重要

你可能感兴趣的:(使用Python通过Hive的Streaming来写UDF的一些记录)