大数据-spark-宽窄依赖-原理图解+浅谈

大数据-spark-宽窄依赖-原理图解+浅谈_第1张图片

大数据-spark-宽窄依赖-原理图解+浅谈_第2张图片

宽依赖:发生shuffle时,一定会产生宽依赖,宽依赖是一个RDD中的一个Partition被多个子Partition所依赖(一个父亲多有儿子),也就是说每一个父RDD的Partition中的数据,都可能传输一部分到下一个RDD的多个partition中,此时一定会发生shuffle

窄依赖:一个RDD中的一个 Partition最多 被一个 子 Partition所依赖(一个父亲有一个儿子)

你可能感兴趣的:(Spark,大数据)