spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01

RDD源码的count方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第1张图片

从上面代码可以看出来,count方法触发SparkContext的runJob方法的调用:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第2张图片

进入 runJob(rdd, func, 0 until rdd.partitions.size, false)方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第3张图片

进一步跟踪runJob(rdd, (context: TaskContext, iter: Iterator[T]) => func(iter), partitions, allowLocal)方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第4张图片

继续跟踪进入runJob[T, U](rdd, func, partitions, allowLocal, (index, res) => results(index) = res)方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第5张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第6张图片

代码分析:

1、getCallSite :

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第7张图片

2、clean(func):

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第8张图片

3、dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal, resultHandler, localProperties.get):

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第9张图片

代码分析:

3.1、进入submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties):

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第10张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第11张图片

上面代码分析:

3.1.1、 进入new JobWaiter(this, jobId, partitions.size, resultHandler)方法

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第12张图片

3.1.2、进入eventProcessActor ! JobSubmitted( jobId, rdd, func2, partitions.toArray, allowLocal, callSite, waiter, properties)方法

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第13张图片

我们可以看出来,是给自己发消息的

3.1.3、进入  dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite,listener, properties)方法

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第14张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第15张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第16张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第17张图片

首先构建finalStage,然后又一个getMissingParentsStages方法,可以发现运行有本地运行和集群运行两种模式,本地运行主要用于本地实验和调试:

3.1.3.1、进入  finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第18张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第19张图片

3.1.3.2、进入 runLocally(job)方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第20张图片

3.1.3.2.1、 runLocallyWithinThread(job)方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第21张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第22张图片

3.1.3.3、进入 submitStage(finalStage)方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第23张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第24张图片

上面代码分析:submitStage第一次传入的参数是Job的最后一个Stage,然后判断一下是否缺失父Stage,如果没有依赖的parent Stage的话就可以submitMissingTasks运行,如果有parent Stage的话就要再一次submitStage做递归操作,最终会导致submitMissingTasks的调用:

3.1.3.3.1、进入  activeJobForStage(stage) 方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第25张图片

3.1.3.3.2、进入  getMissingParentStages(stage).sortBy(_.id) 方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第26张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第27张图片

跟进getShuffleMapState方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第28张图片

进入registerShuffleDependencies方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第29张图片

3.1.3.3.3、进入submitMissingTasks(stage, jobId.get) 方法:

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第30张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第31张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第32张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第33张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第34张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第35张图片

spark内核揭秘-09-RDD的count操作 触发Job全生命周期-01_第36张图片

PS:分析代码太多,下篇继续分析源码

你可能感兴趣的:(RDD,JobSubmitted,runJob,submitJob)