spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程

目录

 

1、spark的任务调度

2、spark的运行架构

3、基于wordcount程序剖析spark任务的提交、划分、调度流程


1、spark的任务调度

spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程_第1张图片

spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程_第2张图片

  • (1) Driver端运行客户端的main方法,构建SparkContext对象,在SparkContext对象内部依次构建DAGScheduler和TaskScheduler对象;
  • (2) Driver端按照rdd的一系列算子操作顺序,来生成DAG有向无环图;
  • (3) DAGScheduler对象在拿到DAG有向无环图之后,按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task,最后将这些task封装在一个一个的taskSet集合中,然后把taskSet发送给TaskScheduler对象;
  • (4) TaskScheduler得到taskSet集合之后,依次遍历取出每一个task,将之提交到worker节点上的executor进程中运行。
  • (5) 所有task运行完成,整个任务也就结束了。

2、spark的运行架构

spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程_第3张图片

spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程_第4张图片

  • (1) Driver端向资源管理器Master发送注册和申请计算资源的请求
  • (2) Master通知对应的worker节点启动executor进程(计算资源);
  • (3) executor进程向Driver端发送注册并且申请task请求(反向注册);
  • (4) Driver端运行客户端的main方法构建SparkContext对象,在SparkContext对象内部依次构建DAGScheduler和TaskScheduler;
  • (5) 按照客户端代码和rdd的一系列操作顺序,生成DAG有向无环图
  • (6) DAGScheduler拿到DAG有向无环图之后,按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task,最后封装在一个一个的taskSet集合中,然后把taskSet发送给TaskScheduler
  • (7) TaskScheduler得到taskSet集合之后,依次遍历取出每一个task提交到worker节点上的executor进程中运行
  • (8) 所有task运行完成,Driver端向Master发送注销请求,Master通知Worker关闭executor进程,Worker上的计算资源得到释放,最后整个任务也就结束了。

3、基于wordcount程序剖析spark任务的提交、划分、调度流程

 

spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程_第5张图片

spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程_第6张图片

你可能感兴趣的:(spark的任务调度、运行架构及基于实例的任务提交、划分和调度流程)