Spark2:运行架构

Spark2:运行架构

  • 一、运行架构
    • 1.概念
    • 2.运行流程
      • 整体流程
      • 注意事项
  • 二、Spark集群模式
  • 三、执行组件
    • 1.RDD
    • 2.Scheduler
    • 3.Storage
    • 4.Shuffle
    • 5.与Hadoop的区别
  • 参考

一、运行架构

Spark2:运行架构_第1张图片

1.概念

• Application: 用户基于spark的代码,由一个Driver和多个Executor组成。
• Executor: 在工作节点(如standalone的Worker和yarn的NM)上的进程,可以运行task,也可以将数据保存在内存和磁盘中。每个应用程序都有自己的Executors。
• Task: 最小的工作单元,会被送往executor执行。它也是Stage 的子集,以并行度(分区数)来衡量,分区数是多少,则有多少个task,一个 task 对应一个RDD分区 ,如果数据来自HDFS,一个分区的数据就是一个 split 的数据。
• Job: 一个Job有许许多多的Task,每一个Action操作都会触发一个Job,可以在driver日志中观察到。
• Stage: 是Job的子集,一个job被拆分成许多的Stage,一个Stage包含多个Task。Stage是提交作业的最小单位,Stage之间彼此依赖。Stage回到shuffle会被拆分。可以在driver日志中观察到。

2.运行流程

Spark组件将用户的应用程序分解为内部执行任务并提供执行容器。

  • Driver Program (驱动程序)
  • Executor

资源管理为Spark组件提供资源管理和调度。

  • YARN(通用)
  • Standalone(Spark自带)

整体流程

Spark2:运行架构_第2张图片
Spark2:运行架构_第3张图片

当一个Spark应用被提交时,首先需要为这个应用构建起基本的运行环境,即由任务控制节点(Driver)创建一个SparkContext,由SparkContext负责和资源管理器(Cluster Manager)的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源;

资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着“心跳”发送到资源管理器上;

SparkContext根据RDD的依赖关系构建DAG图,DAG图提交给DAG调度器(DAGScheduler)进行解析,将DAG图分解成多个“阶段”(每个阶段都是一个任务集),并且计算出各个阶段之间的依赖关系,然后把一个个“任务集”提交给底层的任务调度器(TaskScheduler)进行处理;Executor向SparkContext申请任务,任务调度器将任务分发给Executor运行,同时,SparkContext将应用程序代码发放给Executor;

任务在Executor上运行,把执行结果反馈给任务调度器,然后反馈给DAG调度器,运行完毕后写入数据并释放所有资源。

注意事项

Spark2:运行架构_第4张图片

二、Spark集群模式

集群模式Cluster Mode:将Spark运行应用在YARN集群或者框架自身集群Standalone,及Apache Mesos集群,启动多个JVM进程运行Task程序。 (http://spark.apache.org/docs/2.4.3)
Spark2:运行架构_第5张图片
Spark2:运行架构_第6张图片

三、执行组件

Spark核心组件包括RDD、Scheduler、Storage、Shuffle四部分。

1.RDD

RDD是Spark最核心最精髓的部分,spark将所有数据都抽象成RDD。
Spark2:运行架构_第7张图片
持久化
Spark2:运行架构_第8张图片

2.Scheduler

Scheduler是Spark的调度机制,分为DAGScheduler和TaskScheduler。

3.Storage

Storage模块主要管理缓存后的RDD、shuffle中间结果数据和broadcast数据。
Spark2:运行架构_第9张图片

4.Shuffle

Shuffle分为Hash方式和Sort方式,两种方式的shuffle中间数据都写本地盘。
Spark2:运行架构_第10张图片

5.与Hadoop的区别

Reduce操作生成的结果,spark是存放在内存中的,MapReduce是写HDFS的。所以用户的操作中涉及到的reduce操作越多,Spark比MapReduce写HDFS的次数就越少,Spark的性能优势就越大。

参考

https://zhuanlan.zhihu.com/p/162713938
教授大数据内存的黄老师的PPT

你可能感兴趣的:(海量数据处理(hadoop,spark),笔记,big,data,spark,hadoop)