大数据学习之路36-hive的自定义函数示例,复杂数据解析

假如说我们有这样的数据:

1,zhangsan:18:beijing|male|it,2000
2,lisi:28:beijing|female|finance,4000
3,wangwu:38:shanghai|male|project,20000

假如这些数据由某个应用系统产生在hdfs的如下目录中:/log/data/2018-08-21/

需要放进hive中去做数据挖掘分析

可以先建一张外部表,跟原始数据所在的目录关联;

create external table t_user_info(id int,user_info string,salary int)
row format delimited
fields terminated by ','
location '/log/data/2018-08-21';

原来的数据不方便做细粒度的分析挖掘,所以字段需要拆分,用hive的自带的函数不方便

所以我们需要自定义一个函数来实现拆解功能。

这样的数据是很难分析的,所以我们就希望使用下面这样的函数:

select
id,my_func(info,1) as name,my_func(info,2) as age,my_func(info,3) as addr,
my_func(info,4) as sex
from
t_user_info
where salary>4000

我们在hive中建立一个函数名,跟java程序去关联起来,然后我们在sql中使用函数的时候,本质上会把我们的数据作为输入传给java程序,然后java程序再返回一个结果出来。

所以我们需要去写一个java类,而且我们需要去导入hive的jar包。(打成jar包的时候可以不选lib包因为hive中已经有了。)

package com.test.hive.udf;

import org.apache.hadoop.hive.ql.exec.UDF;


public class UserInfoParser extends UDF{
	
	 //重写evaluate方法
	 //数据:zhangsan:18:beijing|male|it
      public String evaluate(String field,int index) {
    	  //这里的第一个参数是正则,|在正则中有特殊含义,所以需要转义
    	  String replaceAll = field.replaceAll("\\|", ":");
    	  String[] split = replaceAll.split(":");
		  return split[index-1];
		

	  }
      //一旦打成jar包丢给hive之后就不好测试了,我们先测试一下
      //打jar包的时候留着也没事,因为hive也不会调用
      //打成jar包的时候可以不选lib包因为hive中已经有了。
      public static void main(String[] args) {
		    UserInfoParser u = new UserInfoParser();
		    String str = u.evaluate("zhangsan:18:beijing|male|it,2000",1);
		    System.out.println(str);
		    
	  }
}

打成jar包之后,服务端我们不好操作,但是在客户端连上服务器也一样,我们需要将jar包添加到它的classpath下。

可是我们的客户端已经在运行了,还能添加吗?

答案是可以的,我们可以在客户端运行的时候添加classpath

add jar /root/udf.jar

大数据学习之路36-hive的自定义函数示例,复杂数据解析_第1张图片

经过上述的操作我们就把classpath添加到classpath下了,就可以用了。

接下来我们需要去写函数然后和类关联起来。

create temporary function uinf_parse as 'com.test.hive.udf.UserInfoParser';

我们可以使用
show functions;
来查看函数

接下来我们需要创建一个表,并导入数据:

create table t_user_info(id int,user_info string,salary int)
row format delimited
fields terminated by ',';
load data local inpath '/root/user.data' into table t_user_info;

接下来我们测试一下我们的程序能不能用:

select 
id,
uinf_parse(user_info,1) as name,
uinf_parse(user_info,2) as age,
uinf_parse(user_info,3) as sex,
uinf_parse(user_info,4) as job,
salary
from t_user_info;

大数据学习之路36-hive的自定义函数示例,复杂数据解析_第2张图片

我们可以将查出来的内容存入另一个表中生成一种规范的格式:

create table t_u_info
as
select
id,
uinf_parse(user_info,1) as name,
uinf_parse(user_info,2) as age,
uinf_parse(user_info,3) as address,
uinf_parse(user_info,4) as sex,
uinf_parse(user_info,5) as project,
salary
from t_user_info;

 

你可能感兴趣的:(大数据)