Spark cluster 工作机制

              Spark-cluster 工作任务执行流程模型

Spark cluster 工作机制_第1张图片

 

在YARN Cluster模式下,任务提交后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster就是Driver。

Driver启动后向ResourceManager申请Executor内存,ResourceManager接到ApplicationMaster的资源申请后会分配container,然后在合适的NodeManager上启动Executor进程,Executor进程启动后会向Driver反向注册,Executor全部注册完成后Driver开始执行main函数,之后执行到Action算子时,触发一个job,并根据宽依赖开始划分stage,每个stage生成对应的taskSet,之后将task分发到各个Executor上执行。

Executor 在任务执行的过程会随时跟Driver进行 执行状态的交互,交互数据反馈到 spark 的 web UI (localhost:18080)界面展示。等到任务执行结束以后,Executor 会从Driver中注销。

 

 

你可能感兴趣的:(Spark)