RDD-combineByKEY()详解

combineByKey()
(createCombiner,mergeValue,margeCombiners,partitioner)

最常用的基于key的聚合函数,返回的类型可以和输入的类型不一样
许多基于key的聚合函数有用到了它,像groupByKey()

combineByKey():

遍历partition中的元素,元素中的key,要么之前见过,要么不是
如果是新元素,则会使用createCombiner()函数
如果是这个partition中的元素,则会使用mergeValue()函数
合计每个partitioin的结果的时候,使用mergeCombiners()函数

eg:求平均值
RDD-combineByKEY()详解_第1张图片

RDD-combineByKEY()详解_第2张图片
RDD-combineByKEY()详解_第3张图片
RDD-combineByKEY()详解_第4张图片

你可能感兴趣的:(大数据)