学习或做大数据开发的同学,都听说或者使用过Spark,从这部分开始,ShowMeAI带大家一起来学习一下Spark相关的知识。
Apache Spark是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量的廉价硬件之上,形成集群。
[外链图片转存中…(img-bPXivbE3-1707315959456)]
Spark提供使用Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。Apache Spark 已经成为最受欢迎的大数据分布式处理框架之一。
Apache Spark是个开源和兼容Hadoop的集群计算平台。由加州大学伯克利分校的AMPLabs开发,作为Berkeley Data Analytics Stack(BDAS)的一部分,当下由大数据公司Databricks保驾护航,更是Apache旗下的顶级项目。
[外链图片转存中…(img-V36eN6AV-1707315959457)]
[外链图片转存中…(img-xh8Bj0XF-1707315959458)]
[外链图片转存中…(img-yuaGsL9g-1707315959458)]
Spark的核心是作业和任务调度系统,它可以保障各种任务高效完整地运行。
Spark通过作业和任务调度系统,能够有效地进行调度完成各种任务,底层的巧妙设计是对任务划分DAG和容错,使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。
[外链图片转存中…(img-QP67Am5b-1707315959459)]
概念 | 解释 |
---|---|
作业(Job) | RDD中由行动操作所生成的一个或多个调度阶段。 |
调度阶段(Stage) | 每个Job作业会因为RDD之间的依赖关系拆分成多组任务集合,称为调度阶段,简称阶段,也叫做任务集(TaskSet)。调度阶段的划分是由DAGScheduler(DAG调度器)来划分的。调度阶段有Shuffle Map Stage和Result Stage两种。 |
任务(Task) | 分发到Executor上的工作任务,是Spark实际执行应用的最小单元。Task会对RDD的partition数据执行指定的算子操作,比如flatMap、map、reduce等算子操作,形成新RDD的partition。 |
DAGScheduler(DAG调度器) | DAGScheduler是面向Stage(阶段)的任务调度器,负责接收Spark应用提交的作业,根据RDD的依赖关系划分调度阶段,并提交Stage(阶段)给TaskScheduler。 |
TaskScheduler(任务调度器) | TaskScheduler是面向任务的调度器,它接收DAGScheduler提交过来的Stage(阶段),然后把任务分发到Worker节点运行,由Worker节点的Executor来运行该任务。 |
Spark的作业调度主要是指基于RDD的一系列操作构成一个作业,然后在Executor中执行。这些操作算子主要分为转换操作和行动操作,对于转换操作的计算是lazy级别的,也就是延迟执行,只有出现了行动操作才触发作业的提交。
在Spark调度中最重要的是DAGScheduler和TaskScheduler两个调度器:其中DAGScheduler负责任务的逻辑调度,将Job作业拆分成不同阶段的具有依赖关系的任务集,而TaskScheduler则负责具体任务的调度执行。
[外链图片转存中…(img-1Lpy8fzF-1707315959460)]
Apache Spark 中有RDD,DataFrame和Dataset三种不同数据API,发展如下:
[外链图片转存中…(img-1LK6L3WF-1707315959460)]
RDD:
DataFrame:
Dataset:
在Spark 2.0中对Dataframe和Dataset进行了统一,如下图所示:
[外链图片转存中…(img-KTovgY0g-1707315959461)]
Spark的整体逻辑结构如下图所示,包含不同的层级及组成部分:
[外链图片转存中…(img-XCcbrviJ-1707315959462)]
Spark2.0中引入了SparkSession的概念,它为用户提供了一个统一的切入点来使用Spark的各项功能,借助SparkSession,我们可以使用DataFrame和Dataset的各种API,应用Spark的难度也大大下降。
在Spark的早期版本,SparkContext是进入Spark的切入点,RDD数据基于其创建。但在流处理、SQL等场景下有其他的切入点,汇总如下:
[外链图片转存中…(img-FQXqqnhV-1707315959462)]
在Spark高版本中,DataSet和DataFrame提供的API逐渐成为新的标准API,需要一个切入点来构建它们。所以,Spark 2.0引入了一个新的切入点(entry point):SparkSession。
[外链图片转存中…(img-BYzI2Dnl-1707315959463)]
Spark2.0中提出一个概念,Continuous Applications(连续应用程序)。
Spark Streaming等流式处理引擎,致力于流式数据的运算:比如通过map运行一个方法来改变流中的每一条记录,通过reduce可以基于时间做数据聚合。但是很少有只在流式数据上做运算的需求,流式处理往往是一个大型应用的一部分。
[外链图片转存中…(img-ujik3Qp9-1707315959463)]
Continuous Applications提出后,实时运算作为一部分,不同系统间的交互等也可以由Structured Streaming来处理。
Structured Streaming是一个建立在Spark Sql引擎上的可扩展、高容错的流式处理引擎。它使得可以像对静态数据进行批量处理一样来处理流式数据。
[外链图片转存中…(img-ORBQBWfL-1707315959463)]