Hive brickhouse多列合并生成Json collect_set JsonUDF

在做数据聚合整理的时候,存在需要将同一ID的多列,合并成一个json,通过collcet_Set手动拼接json,手动效率不高,而且内置的UDF有连接符,最后生成的json格式怎么调试都不对,本想自己写UDF生成json,google后找到存在的UDF函数,先做以下记录:
google原帖参考:

https://stackoverflow.com/questions/25188734/converting-data-from-multiple-hive-tables-to-complex-json
https://stackoverflow.com/questions/24826530/collect-to-a-map-in-hive

附上github地址:

https://github.com/klout/brickhouse

该项目已经三年没更新,自己手动编译为通过,可能是原项目JDK版本太老了,好在有现成jar包
Hive brickhouse多列合并生成Json collect_set JsonUDF_第1张图片
复制jar包到服务器

--导入udf
 ADD jar /opt/UDF/brickhouse-0.7.1-SNAPSHOT.jar;
--创建临时UDF包collect
CREATE
TEMPORARY FUNCTION collect AS 'brickhouse.udf.collect.CollectUDAF';
--创建临时UDF包to_json 
CREATE
TEMPORARY FUNCTION to_json AS 'brickhouse.udf.json.ToJsonUDF';

这里解释下:
to_json可以将to_json(collect_set(字段名1)),将单列字段名1生成JSON串,生成的结果不带KEY值,格式为[{“value1”,“value2”…}]
这里在解释下collect_set collect_list的区别,collect_set 去重,collect_list不去重
collect可以将多列字段名,通过json的key-value方式结合,并且可以通过嵌套sort_array进行排序,其中得通过内置named_struct的UDF,组合为KEY-VALUE的格式,
to_json(sort_array(collect_set(named_struct(“key1”,字段名1,“key2”,字段名2… ))))
最后生成的json串带排序,且为key-value的格式
Hive brickhouse多列合并生成Json collect_set JsonUDF_第2张图片
附 named_struct函数的官方解释

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

你可能感兴趣的:(hive,udf,hive,udf,json)