spark中reparation和coalesce的用法和区别

今天主要来说一下reparation和coalesce的用法和区别:

先看一下下面的代码吧:

package test

import org.apache.spark.{SparkConf, SparkContext}

object RddTest {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("localTest").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val rdd1 = sc.parallelize(List("hello","jason","jim","vin"),5)
    println(rdd1.partitions.length)  //输出5
    val rdd3 = rdd1.repartition(10)
    println(rdd3.partitions.length)  //输出10
    val rdd4 = rdd1.coalesce(10,true) 
    println(rdd4.partitions.length)  //输出10
  }
}

从上面的demo中可以看到coalesce和repartition都是用来对RDD的分区重新划分的,下面我们来看一下这两个方法的源码.如下:

spark中reparation和coalesce的用法和区别_第1张图片

你可能感兴趣的:(Spark)