在这里单独讲解combineByKey是因为在练习这个算子是一开始并不是太明白,希望能我的实验过程能帮到其它和我有相同疑惑的人。首先给出combineByKey的定义,其他的细节暂时忽略。
def combineByKey[C](
createCombiner: V => C,
mergeValue: (C, V) => C,
mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {
/*content*/
}
首先介绍一下上面三个参数:
* Users provide three functions: * * - `createCombiner`, which turns a V into a C (e.g., creates a one-element list) 这个函数把当前的值作为参数,此时我们可以对其做些附加操作(类型转换)并把它返回 (这一步类似于初始化操作) * - `mergeValue`, to merge a V into a C (e.g., adds it to the end of a list) 该函数把元素V合并到之前的元素C(createCombiner)上 (这个操作在每个分区内进行) * - `mergeCombiners`, to combine two C's into a single one. 该函数把2个元素C合并 (这个操作在不同分区间进行)
下面给出一个具体实例:
var rdd = sc.makeRDD(Array(("A",2),("A",1),("A",3),("B",1),("B",2),("C",1)))
val collect: Array[(String, String)] = rdd.combineByKey(
(v: Int) => v + "_",
(c: String, v: Int) => c + "@" + v,//同一分区内
(c1: String, c2: String) => c1 + "$" + c2
).collect
for (elem <- collect) {
println(elem._1,"--",elem._2)
}
结果:
(A,--,2_$1_@3)
(B,--,1_$2_)
(C,--,1_)
解析:
对于每一个分区内的相同Key的数据,先使用createCombiner初始化C,然后使用mergeValue将初始化后的C与同一个分区其它value进行合并形成新的C;最后使用mergeCombiners将不同分区之间的C进行组合。
为了更加容易看出结果,我们将rdd中的分区进行打印观察:
val tuples: Array[(String, List[(String, Int)])] = rdd.mapPartitionsWithIndex((Index, iter) => {
var part_map = scala.collection.mutable.Map[String, List[(String, Int)]]()
while (iter.hasNext) {
var part_name = "part_" + Index
var elem = iter.next();
if (part_map.contains(part_name)) {
var elems = part_map(part_name)
elems ::= elem
part_map(part_name) = elems
} else {
part_map(part_name) = List[(String, Int)] {
elem
}
}
}
part_map.iterator
}).collect()
for (elem <- tuples) {
println(elem._1,"-->",elem._2)
}
结果:
(part_0,-->,List((A,2)))
(part_1,-->,List((A,3), (A,1)))
(part_2,-->,List((B,1)))
(part_3,-->,List((C,1), (B,2)))
由于A存在相同分区和不同分区两种类型,所以其合并后的值为(A,--,2_$1_@3)