Spark分布式计算原理(宽窄依赖,DAG,stage划分,shuffle过程,Spark计算引擎原理)

文章目录

  • 1、RDD依赖
    • 1.1 依赖关系
    • 1.2 窄依赖
    • 1.3 宽依赖
    • 1.4 宽依赖对比窄依赖
  • 2、DAG
  • 3、stage划分
    • 3.1 为什么要写在本地
    • 3.2 移动算子而不是移动数据
  • 4、Spark Shuffle过程
  • 5、Spark计算引擎原理

1、RDD依赖

Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。

Lineage:血统、遗传。RDD最重要的特性之一,保存了RDD的依赖关系;RDD实现了基于Lineage的容错机制。

1.1 依赖关系

RDD之间的依赖关系分为窄依赖(narrow dependency)和宽依赖(wide dependency,也称shuffle dependency)。

1.2 窄依赖

窄依赖:一个父RDD的分区被子RDD的

你可能感兴趣的:(spark,spark)