Spark调度解析

目录

Spark调度解析 

1.相关术语

2.作业、阶段、任务之间的关系

如何划分作业(Job)

如何划分阶段(Stage)

如何划分任务(Task)

总结

3.Spark运行流程

参考文献


Spark调度解析 

1.相关术语

Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;

Driver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManager通信,进行资源的申请、任务的分配和监控等;当Executor部分运行完毕后,Driver负责将SparkContext关闭。通常用SparkContext代表Driver;

Executor:Application运行在Worker 节点上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个Application都有各自独立的一批Executor。

Cluster Manager:指的是在集群上获取资源的外部服务,目前有:

a.  Standalone:Spark原生的资源管理,由Master负责资源的分配;

b.  Hadoop Yarn:由YARN中的ResourceManager负责资源的分配;

Worker:集群中任何可以运行Application代码的节点,类似于YARN中的NodeManager节点。在Standalone模式中指的就是通过Slave文件配置的Worker节点,在Spark on Yarn模式中指的就是NodeManager节点;

作业(Job):包含多个Task组成的并行计算,往往由Spark Action催生,一个JOB包含多个RDD及作用于相应RDD上的各种Operation;

阶段(Stage):每个Job会被拆分很多组Task,每组任务被称为Stage,也可称TaskSet,一个作业分为多个阶段;

任务(Task): 被送到某个Executor上的工作任务

2.作业、阶段、任务之间的关系

总体而言,在spark中,一个应用(Application)由一个任务控制节点(Driver)和若干个作业(Job)组成,一个作业(Job)由多个阶段(Stage)组成,一个阶段(Stage)由多个任务(Task)组成。

如何划分作业(Job)

RDD提供了一组丰富的操作来支持常见的数据运算,他们分为行动(Action)转换(Transformation)两类。前者用来执行计算并且输出,后者指定RDD之间的依赖关系。

说得具体一点就是,转换操作(如map、filter、groupBy、join等)的输入是一个RDD,输出也是一个RDD,这样就建立了两个RDD之间的依赖,而在Spark中转换(Transformation)是延迟执行的,也就是说转换并不立即执行;而行动操作(如count、collect)的输入是RDD,但是输出是非RDD形式,也就是数据结果集合,而Action操作会立即执行。

也就是说,在Application中,是根据Action来划分Job的,对于Transformation,Spark只是记录下参与的数据集RDD和生成的轨迹,当遇到Action操作时,才会将其与之前的Transformation操作打包成一个Job,进行计算。

Spark调度解析_第1张图片

如何划分阶段(Stage)

RDD中不同的操作会使得不同的RDD分区中产生不同的依赖。它们分为窄依赖(Narrow Dependency)宽依赖(Wide Dependency)

如下图所示,其中一个大矩形表示一个RDD,RDD中的小矩形表示一个Partition分区。竖线左边为窄依赖,右边为宽依赖。

简单的说,如果父RDD中的分区Partition与子RDD中的分区的关系是一对一或多对一的关系,则为窄依赖,否则为宽依赖。而在Job中,遇到宽依赖,就会划分一下阶段。

Spark调度解析_第2张图片

DAG优化:一个job会被切分为多个stage,碰到宽依赖就会切分一下。

Spark调度解析_第3张图片

如何划分任务(Task)

划分了阶段后,就可以保证Stage1和Stage2中RDD之间都是窄依赖,这样分区之间的操作可以形成一个流水线(Pipeline)操作,Spark会将每条Pipeline封装成一个任务(Task),就比如上图中Stage2中存在4个Task,C到D中第一个分区执行完map操作,不用等待第二个分区执行完map操作,直接可以立即执行union操作,能够大大提高计算效率。

总结

(1)创建RDD对象。

(2)SparkContext负责计算RDD之间的依赖关系,划分Job,构建DAG。这个过程都是在Driver上完成。

(3) DAGScheduler负责将DAG图分解成多个Stage,每个Stage中包含多个Task,然后每个Task会被任务调度器分发给各个Worker上去被Executor执行。

3.Spark运行流程

详细过程都在图上了,有点潦草,将就着看。^_^

参考文献

[1]https://www.cnblogs.com/shishanyuan/p/4721326.html

[2]大数据技术原理与应用(第二版,人民邮电出版社)

 

 

 

 

你可能感兴趣的:(Spark,大数据面试)