Spark核心技术与应用第二章

Spark核心技术与应用第二章

2.1.3 集群部署概述集群相关的概念

集群相关基础概念

概念 说明
Application 建立在spark上的用户应用程序,由一个Driver程序和集群上的Executors组成
Application Jar 一个包含用户Spark应用程序的Jar包,在某些情况下,包含应用程序的依赖包
Driver program 驱动程序,运行main函数并创建SparkContext的进程
Cluster manager 管理集群资源的外部服务(独立模式管理器、Mesos、Yarn等)
Deploy mode 决定在何处运行Driver进程的部署模式,分为Cluster和Client两种模式
Worker node 集群中运行应用程序的节点
Executor 应用程序在worker节点上启动的进程,该进程执行任务并保持数据在内存或磁盘中
Task 被发送到某个Executor的一个工作单元
Job 作业,一个Job包含多个RDD及作用于相应RDD上的各种Operation
Stage 阶段,每个Job都会被分解为多个相互依赖的任务集合
RDD 弹性分布式数据集
Operation 作用于RDD的各种操作,分为Transformation和Action
Partitions 数据分区,一个RDD中的数据可以分为多个不同的分区
DAG 有向无环图,反应RDD之间的依赖关系
Narrow dependency 窄依赖,子RDD依赖父RDD中固定的数据分区
Wide dependency 宽依赖,子RDD对父RDD中的所有数据分区都有依赖
Caching management 缓存管理,对RDD的中间计算结果进行缓存管理,以加快整体的处理速度

Spark部署

部署方式:

Local模式部署

Standalone模式部署
Yarn模式部署
Mesos模式部署

待续。。。

应用程序提交过程

待续。。。

你可能感兴趣的:(Spark核心技术与应用第二章)