hive UDAF求平均值

最近做数据迁移项目,把聚合部分从kettle迁移到hadoop集群上,需要写很多聚合脚本
在论坛是看到alipay同事写过类似cube的UDAF,代码拿过来运行下报错,有几个地方没看多,而且没有注释,只好从基础开始看,自己搞一个,之前写过UDF所以入手还是听快的
准备:
1、实现自己的UDAF需要集成UDAF
2、至少有一个内部类,实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator
3、必须写 inin方法
4、并且有个方法名叫iterate() 参数任意,这个方法是函数入口
5、并且要有terminatePartial,merge,terminate,算上上面的共5个方法,下面一一讲解

public class Mean extends UDAF {

public static class MeanDoubleUDAFEval implements UDAFEvaluator {
public static class PartialResult {
double sum;
long count;
}

private PartialResult pResult;

@Override
public void init() {
pResult = null;
}

public boolean iterate(DoubleWritable value) {
if (value == null) {
return true;
}
if (pResult == null) {
pResult = new PartialResult();
}
pResult.sum += value.get();
pResult.count++;
return true;
}

public PartialResult terminatePartial() {
return pResult;
}

public boolean merge(PartialResult other) {
if (other == null) {
return true;
}
if (pResult == null) {
pResult = new PartialResult();
}
pResult.sum += other.sum;
pResult.count++;
return true;
}

public DoubleWritable terminate() {
if (pResult == null) {
return null;
}
return new DoubleWritable(pResult.sum / pResult.count);
}
}

inin()函数可以用来做初始化操作,一般会将统计变量置空,重置内部状态
iterate方法是函数的入口,参数个数和类型和udaf实现功能息息相关
terminatePartial 需要部分聚集是调用该函数,因为计算是不同的数据块会分到不同的map端,计算之后再传输到reduce端,很多计算是可以在map后面继续计算一次,比如求最大值(求平均值则不可以),这个时候就会调用terminatePartial函数,函数必须返回一个封装了聚集计算当前状态的对象,传入reduce端
merge函数,数据传输到reduce端前调用该函数,所以入参必须和terminatePartial返回值相同
terminate函数:hive最终聚集时会调用terminate,返回计算结果

你可能感兴趣的:(hadoop)