4.4 DAGScheduler JOB的简要说明

1. 概要

提交JOB

JOB是DAG图中的最高层的逻辑抽象, 上文提到过, RDD的Action操作提交会生成一个JOB.
既然客户给了需求, 就要抽丝剥茧, 一层一层网上找依赖, 最终形成了一个DAG的执行图.

执行JOB的过程, 等同于对RDD中的parition进行操作的过程. JOB中的parition依赖上游的两种可能的计算结果 ResultStage或者ShuffleMapStage


4.4 DAGScheduler JOB的简要说明_第1张图片
image.png
  • Map-stage job DAG图中间的shuffle操作, 会生成ShuffleMapStage. 这个结果是一个中间结果. 这里会挂起好几个和性能高度相关的统计信息, 后文有机会再说明.

  • Result job 最终结果, 没有任何后置的stage了, 是整个DAG图的most deep node

你可能感兴趣的:(4.4 DAGScheduler JOB的简要说明)