Spark核心之combineByKey详解

在这里单独讲解combineByKey是因为在练习这个算子是一开始并不是太明白,希望能我的实验过程能帮到其它和我有相同疑惑的人。首先给出combineByKey的定义,其他的细节暂时忽略。

 def combineByKey[C](
      createCombiner: V => C,
      mergeValue: (C, V) => C,
      mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {
                /*content*/
  }

首先介绍一下上面三个参数:

* Users provide three functions:
*
*  - `createCombiner`, which turns a V into a C (e.g., creates a one-element list)
这个函数把当前的值作为参数,此时我们可以对其做些附加操作(类型转换)并把它返回 (这一步类似于初始化操作)
*  - `mergeValue`, to merge a V into a C (e.g., adds it to the end of a list)
该函数把元素V合并到之前的元素C(createCombiner)上 (这个操作在每个分区内进行)
*  - `mergeCombiners`, to combine two C's into a single one.
该函数把2个元素C合并 (这个操作在不同分区间进行)

下面给出一个具体实例:

  var rdd = sc.makeRDD(Array(("A",2),("A",1),("A",3),("B",1),("B",2),("C",1)))

    val collect: Array[(String, String)] = rdd.combineByKey(
      (v: Int) => v + "_",
      (c: String, v: Int) => c + "@" + v,//同一分区内
      (c1: String, c2: String) => c1 + "$" + c2
    ).collect

    for (elem <- collect) {
      println(elem._1,"--",elem._2)
    }

结果:

(A,--,2_$1_@3)
(B,--,1_$2_)
(C,--,1_)

解析:

对于每一个分区内的相同Key的数据,先使用createCombiner初始化C,然后使用mergeValue将初始化后的C与同一个分区其它value进行合并形成新的C;最后使用mergeCombiners将不同分区之间的C进行组合。

 

为了更加容易看出结果,我们将rdd中的分区进行打印观察:

 val tuples: Array[(String, List[(String, Int)])] = rdd.mapPartitionsWithIndex((Index, iter) => {
      var part_map = scala.collection.mutable.Map[String, List[(String, Int)]]()

      while (iter.hasNext) {
        var part_name = "part_" + Index
        var elem = iter.next();
        if (part_map.contains(part_name)) {
          var elems = part_map(part_name)
          elems ::= elem
          part_map(part_name) = elems
        } else {
          part_map(part_name) = List[(String, Int)] {
            elem
          }
        }
      }
      part_map.iterator
    }).collect()
    for (elem <- tuples) {
      println(elem._1,"-->",elem._2)
    }

结果:

(part_0,-->,List((A,2)))
(part_1,-->,List((A,3), (A,1)))
(part_2,-->,List((B,1)))
(part_3,-->,List((C,1), (B,2)))

由于A存在相同分区和不同分区两种类型,所以其合并后的值为(A,--,2_$1_@3)

你可能感兴趣的:(Spark,Scala)