Hive: HQL使用技巧和函数

Hive HQL使用技巧

HQL与SQL基本类似。

注意点:

  • HQL查询中,使用表达式计算出的值,表达式中若有一个变量为NULL,那么整个表达式都为NULL。如:sal*12+comm,若comm或sal为NULL,那么表达式结果也为NULL。可以使用函数nvl(var, if_null_value)判断空值和赋予默认值。

Fetch Task(Since ver0.10.0):

该功能可以使简单查询语句不转换为MapReduce任务,直接操作HDFS。

  • set hive.fetch.task.conversion=more;
  • hive –hiveconf hive.fetch.task.conversion=more;
  • 修改hive-site.xml。

HQL排序:

  • 使用order by:后可跟:列,表达式,别名,列序号。
  • 使用列序号要开启:set hive.groupby.orderby.position.alias=true;
  • NULL默认排在最前。

HQL子查询:

  • hive只支持:from和where子句中的子查询。
  • 如果子查询返回的结果集当中含有NULL,不能使用NOT IN,可以使用IN。

Hive函数:

  • 内置函数
  • 自定义函数

字符函数:

  • lower
  • upper
  • lpad
  • rpad

收集函数:

  • size

日期函数:

  • to_date
  • year
  • month
  • day
  • weekofyear
  • date_sub

 

聚合函数:

  • count
  • sum
  • min
  • max
  • avg

 

自定义函数(UDF:User Defined Function)

  • 自定义类继承自org.apache.hadoop.hive.ql.UDF。
  • 实现evaluate函数。
  • 把程序打包放到目标机器。
  • 进入hive客户端:hive>add jar < jar path >;
  • 创建临时函数:hive>create temporary function < func_name > as < java class name >;
  • 销毁自定义函数:hive>drop temporary function < func_name >;

UDF例子:
自定义字符串连接函数:

package demo.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

public class ConcatString extends UDF {
    public Text evaluate(Text a, Text b) {
        return new Text(a.toString() + "****" + b.toString();
    }    
}
  • 打包成jar包上传至目标机器
  • hive>add jar < your_jar >;
  • hive>create temporary function myconcat as ‘demo.udf.ConcatString’;
  • select myconcat(‘Hello’, ‘World’)
  • 结果:Hello****World

 

 

你可能感兴趣的:(hive)