Hive 系列 - 常用函数

1系统内置函数

1.查看系统自带的函数

hive> show functions;

2.显示自带的函数的用法

hive> desc function upper;

3.详细显示自带的函数的用法

hive> desc function extended upper;

2 自定义函数

  1. Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。

  2. 当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。

  3. 根据用户自定义函数类别分为以下三种:

    1. UDF(User-Defined-Function) 一进一出
    2. UDAF(User-Defined Aggregation Function) 聚集函数,多进一出 类似于:count/max/min
    3. UDTF(User-Defined Table-Generating Functions) 一进多出 如lateral view explore()
  4. 编程步骤:

    1. 继承org.apache.hadoop.hive.ql.UDF

    2. 需要实现evaluate函数;evaluate函数支持重载;

    3. 在hive的命令行窗口创建函数

      add jar linux_jar_path
      create [temporary] function [dbname.]function_name AS class_name;
      
    4. 在hive的命令行窗口删除函数

      Drop [temporary] function [if exists] [dbname.]function_name;
      
  5. 注意事项

    UDF必须要有返回类型,可以返回null,但是返回类型不能为void;

3 自定义UDF函数

  1. 创建一个Maven工程Hive

  2. 导入依赖

    
         
         
             org.apache.hive
             hive-exec
             1.2.1
         
    
    
  3. 创建一个类

    package com.rex.hive;
    import org.apache.hadoop.hive.ql.exec.UDF;
    
    public class Lower extends UDF {
    
     public String evaluate (final String s) {
         
         if (s == null) {
             return null;
         }
         
         return s.toLowerCase();
     }
    }
    
  4. 打成jar包上传到服务器/opt/module/jars/udf.jar

  5. 将jar包添加到hive的classpath

    hive (default)> add jar /opt/module/datas/udf.jar;
    
  6. 创建临时函数与开发好的java class关联

    hive (default)> create temporary function mylower as "com.rex.hive.Lower";
    
  7. 即可在hql中使用自定义的函数strip

    hive (default)> select ename, mylower(ename) lowername from emp;
    

你可能感兴趣的:(Hive 系列 - 常用函数)