Spark中reduceByKey()和groupByKey()的区别

在Spark当中,分组操作时,提供了这么两个函数,用WordCount程序来举例。

val words = Array("one", "two", "two", "three", "three", "three")
val wordPairsRDD = sc.parallelize(words).map(word => (word, 1))

val wordCountsWithReduce = wordPairsRDD
  .reduceByKey(_ + _)
  .collect()

val wordCountsWithGroup = wordPairsRDD
  .groupByKey()
  .map(t => (t._1, t._2.sum))
  .collect()

这两种做法的结果都是正确的。

在大的数据集上,reduceByKey()的效果比groupByKey()的效果更好一些。因为reduceByKey()会在shuffle之前对数据进行合并。

如图所示:
下面一张图就能表示reduceByKey()都做了什么。

Spark中reduceByKey()和groupByKey()的区别_第1张图片
reduceByKey

而当我们调用groupByKey()的时候,所有的键值对都会被shuffle到下一个stage,传输的数据比较多,自然效率低一些。

Spark中reduceByKey()和groupByKey()的区别_第2张图片
groupByKey

原文:Spark中reduceByKey()和groupByKey()的区别(译)

你可能感兴趣的:(Spark中reduceByKey()和groupByKey()的区别)