Spark学习-基本名词理解

分布式弹性数据集 RDD(Resilient Distribute DataSet)

可以理解为Spark中用于数据处理的基本数据类型。

详见:https://blog.csdn.net/weixin_42078760/article/details/107272921

数据分区 Partition

RDD在集群中被切分为多个分区,每个分区单独进行计算。

数据块 Block

每个数据分片在底层存储中,都会以block形式存在。

RDD、Parittion和Block的关系

Spark学习-基本名词理解_第1张图片

血统 Lineage

可以理解为RDD在转换过程中的继承和依赖关系,就像族谱一样。

窄依赖 Narrow Dependencies 与 宽依赖Wide Dependencies

这里的宽窄依赖,不是指RDD的相互依赖关系,是指数据分片间的依赖关系。

Spark学习-基本名词理解_第2张图片
Spark学习-基本名词理解_第3张图片

有向无环图 DAG(Directed Acyclic Graph)

RDD的一系列变换轨迹形成了一系列RDD,这些RDD连接起来就成了有向无环图。

任务集 Stage

一个完整的Spark计算任务在形成有向无环图后,即是明确计算目标后,进行任务阶段的划分,每个任务阶段可以理解为一个任务集。

任务 Task

基于任务集进一步划分具体计算任务,即是每个任务阶段执行的具体任务。

执行器 Executor

执行器分布在Spark集群各个节点,负责执行任务。

DAG、Stage、Task和Executor关系

Spark学习-基本名词理解_第4张图片

你可能感兴趣的:(数据开发)