PySpark之Spark RDD中groupByKey和reduceByKey区别

  • reduceByKey函数:在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,reduce任务的个数可以通过第二个可选的参数来设置。PySpark之Spark RDD中groupByKey和reduceByKey区别_第1张图片- groupByKey函数:在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的函数,将相同key的值聚合到一起,与reduceByKey的区别是只生成一个sequence。
    PySpark之Spark RDD中groupByKey和reduceByKey区别_第2张图片

你可能感兴趣的:(Spark计算引擎,spark,big,data,hadoop)