Spark学习笔记(10)——RDD阶段划分和任务划分

一、阶段划分的概念

通过前面的学习我们知道RDD转换算子从分区数据是否会重新组合的角度看可分为两类:

一类是如map、mapPartitions等,一个分区的数据经过处理后仍然还在同一个分区。各个分区的数据不存在互相依赖的关系,即OneToOne依赖,因此各个分区在处理完自己的任务后就可以直接通过转换算子进入新的RDD,不需要谁等谁。
Spark学习笔记(10)——RDD阶段划分和任务划分_第1张图片
而另一类转换算子如groupBy、reduceByKey等,分区数据需要重新组合(即存在shuffle操作)。各个分区的数据存在互相依赖的关系,即Shuffle依赖(宽依赖),需要进行这类转换算子操作时,一个分区处理完任务后不能立即进行转换,需要等待所有分区都准备好后,再一起转换进入下一个阶段,这里就有了阶段划分的概念
Spark学习笔记(10)——RDD阶段划分和任务划分_第2张图片

二、阶段划分源码分析

dagScheduler在提交Job时会创建一个ResultStage,ResultStage只有一个,存在于最后执行行动算子的阶段
Spark学习笔记(10)——RDD阶段划分和任务划分_第3张图片
除了最后执行的ResultStage,还有中间的ShuffleMapStage,每有一个Shuffle依赖就增加一个阶段,故阶段总数等于宽依赖(ShuffleDependency)的个数加 1
Spark学习笔记(10)——RDD阶段划分和任务划分_第4张图片

三、RDD的任务划分

RDD 任务切分中间分为:Application、Job、Stage 和 Task

Application:初始化一个 SparkContext 即生成一个 Application;
Job:一个 Action 算子就会生成一个 Job;
Stage:Stage 等于宽依赖(ShuffleDependency)的个数加 1;
Task:一个 Stage 阶段中,最后一个 RDD 的分区个数就是 Task 的个数。

注意:Application->Job->Stage->Task 每一层都是 1 对 n 的关系

你可能感兴趣的:(Spark学习笔记)