spark shuffle

spark 的shuffle 过程分为:

1:map 

2:shuffle write

3:shuffle read

4:reduce

一般来说 机器的性能好的话,shuffle过程之中,数据不写入磁盘。

这个就是spark 和hadoop 的主要区别,基于内存进行运算。

判断数据倾斜的时候,可以根据 spark 的UI 界面来判断 各个Task的shuffle write的记录的多少,

这样来进行判断 shuffle的过程之中是否产生了数据倾斜。


spark 的shuffle 有好多种,现在暂时不去介绍。

你可能感兴趣的:(spark shuffle)