低版本impala多次去重UDAF

     使用低版本的impala在进行去重统计count(distinct 字段)操作的时候会遇到很大的限制,就是一条sql只能对一个字段进行去重统计,多于一个字段使用count(distinct 字段)则会提示如下报错:

”errorMessage:AnalysisException: all DISTINCT aggregate functions need to have the same set of parameters as ..."

    目前高版本的impala和hive,spark则是支撑多个不同字段进行去重统计操作的。

    针对该问题我用C++开发了一个UDAF如下,欢迎试用优化:

    https://github.com/Gevygg/impala-distinct-count

 

你可能感兴趣的:(大数据,c++,hadoop,impala,UDAF,大数据,C++)