Apache Spark分布式计算原理

Spark WordCount原理

Apache Spark分布式计算原理_第1张图片

为什么需要划分Stage

数据本地化
移动计算,而不是移动数据
保证一个Stage内不会发生数据移动
根据是否发生了数据移动判断是否划分了阶段

Spark Shuffle过程

在分区之间重新分配数据
父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中
中间结果写入磁盘
由子RDD拉取数据,而不是由父RDD推送
默认情况下,Shuffle不会改变分区数量
Apache Spark分布式计算原理_第2张图片

你可能感兴趣的:(Apache Spark分布式计算原理)