一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程。
在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行。
1、应用执行过程中的基本组件和形态
Driver:
运行在客户端或者集群中,执行Application的main方法并创建SparkContext,调控整个应用的执行。
Application:
用户自定义并提交的Spark程序。
Job:
一个Application可以包含多个Job,每个Job由Action操作触发。
Stage:
比Job更小的单位,一个Job会根据RDD之间的依赖关系被划分为多个Stage,每个Stage中只存有RDD之间的窄依赖,即Transformation算子。
TaskSet:
每个Stage中包含的一组相同的Task。
Task:
最后被分发到Executor中执行的具体任务,执行Stage中包含的算子。
明确了一个应用的生命周期中会有哪些组件参与之后,再来看看用户是怎么提交Spark程序的。
2、应用的两种提交方式
Driver进程运行在客户端(Client模式):
即用户在客户端直接运行程序。
程序的提交过程大致会经过以下阶段:
Driver进程运行在集群中(某个Worker节点,Cluster模式):
即用户将Spark程序提交给Master分配执行。
大致会经过一下流程:
可以看到,两种程序的提交方式在处理过程中,仅仅是在哪个地方启动Driver进程的区别而已。
为Client模式中时(使用Spark Shell直接执行的程序),Driver就在客户端上。
为Cluster模式时(提交Spark程序到Master),Driver运行与集群中的某个Worker节点。
Spark框架就像一个操作系统一样,有着自己的作业调度策略,当集群运行在不同的模式下,调度不同级别的单位,使用的策略也是有所不同的。
1、Application之间的调度
当有多个用户提交多个Spark程序时,Spark是如何调度这些应用并合理地分配资源呢?
Standalone模式下,默认使用FIFO,每个app会独占所有资源
可以通过以下几个参数调整集群相关的资源:
在Mesos模式下,可以使用
在Yarn模式下,提交作业时可以使用
2、Application内部的Job调度机制
一个Application中,由各个Action触发的多个Job之间也是存在调度关系的。
Action操作实现上是调用了SparkContext的runJob方法提交Job。
Spark中调度Job有两种策略
FIFO:
FAIR:
可以通过配置spark.scheduler.mode调整Job的调度方式
另外也可以配置调度池,具体参考官方文档
或者参考conf/fairscheduler.xml.template文件。
3、Job中的Stage调度
Stage是由DAGScheduler组件生产的,在源码中,有三个比较特殊的变量:
Spark会通过广度优先遍历找到最开始的Stage执行,若有父Stage没有执行完则等待。
4、Stage中的Task调度
暂未了解。。。
Spark虽然是基于内存计算的框架,但是不可避免的也会接触到一些存储层,那么在和存储层交互的时候,Spark做了哪些工作?
1、序列化
序列化的本质就是将对象转换为字节流,可以理解为将链表中存储的非连续空间的数据存储转化为连续空间存储的数组中
Spark为什么要做序列化操作?
内存或磁盘中RDD会含有对象的存储,而在节点间数据的传输时,序列化之后的数据可以节约空间和提高效率。
2、压缩
压缩是日常生活中的一个常见操作,好处显而易见,节约空间,从而就可以获得时间上的效率。
Spark中序列化之后的数据可以进行压缩以减少空间开销。
Spark支持两种压缩算法
在不同的场景中选择不同的压缩算法可以有效的提高程序运行的效率。
压缩配置方式:
3、块管理
RDD从物理上看是一个元数据结构,记录着Block和Node之间的映射关系。
存储RDD是以Block块为单位的,每个分区对应一个块,PartitionID通过元数据信息可以映射到Block。
BlockManager管理和接口、块读写流程、数据块读写管理等细节待继续深入了解。
Spark中使用Akka作为通信框架
Spark各个组件的之间协调工作都是基于Akka机制来的,待深入了解的有:
之前讲过,RDD之间的算子操作会形成DAG图,RDD之间的依赖关系会形成Lineage。
要理解Lineage机制首先要明确两种依赖的概念:
Shuffle Dependencies(宽依赖)
父分区可以被多个子分区所用
即多对多的关系
Narrow Dependencies(窄依赖)
父分区最多被一个子分区所用
即一对一或者多对一的关系
当出现某个节点计算错误的时候,会顺着RDD的操作顺序往回走
一旦是Narrow Dependencies错误,重新计算父RDD分区即可,因为其不依赖其他节点
而如果Shuffle Dependencies错误,重算代价较高,因为一旦重新计算其依赖的父RDD分区,会造成冗余计算
这时候就需要人为的添加检查点来提高容错机制的执行效率
什么情况下需要加CheckPoint
Shuffle的定义:对无规则的数据进行重组排序等过程
为什么要Shuffle:分布式计算中数据是分布在各个节点上计算的,而汇总统计等操作需要在所有数据上执行
Spark中Shuffle经历的阶段:
Shuffle Write
将各个节点数据写入到指定分区
1、根据下一个Stage分区数分成相应的Bucket
2、将Bucket写入磁盘
Shuffle Fetch
获取各个分区发送的数据
1、在存储有Shuffle数据节点的磁盘Fetch需要的数据
2、Fetch到本地之后进行自定义的聚集函数操作
最后记录一下提交Spark作业的方法
在spark的bin目录下
执行spark-submit脚本
./spark-submit \
–class 入口函数所在的类名全称 \
–master spark master节点的地址(默认端口7077)\
–executor-memory 指定worker中Executor的内存 \
–total-executor-cores 100 \
jar文件所在的目录 \