Spark原理之SortShuffle

介绍:

在Spark 1.2以前,默认的shuffle计算引擎是HashShuffleManager。HashShuffleManager采用的hashShuffle机制很大的问题就是产生大量的中间磁盘文件,产生的大量磁盘IO操作会有性能问题。

在Spark 1.2以后的版本中,默认的ShuffleManager改成了SortShuffleManager。SortShuffleManager相较于HashShuffleManager来说,有了一定的改进。主要就在于,每个Task在进行shuffle操作时,虽然也会产生较多的临时磁盘文件,但是最后会将所有的临时文件合并(merge)成一个磁盘文件,因此每个Task就只有一个磁盘文件。在下一个stage的shuffle read task拉取自己的数据时,只要根据索引读取每个磁盘文件中的部分数据即可。

所以,SortShuffle这种方式以更少的中间磁盘文件产生性能优于HashShuffle。包括两种运行机制:一种为普通机制,一种为byPass机制。而bypass机制的启动条件为:shuffle read task 的数量小于等于spark.shuffle.sort.bypassMergeThreshold参数的值时(default:200),就会启动bypass机制,因此:当read task个数少不是很多的情况下,采用bypass机制会更好

下面分析SortShuffle的两种机制:

普通运行机制:

在该模式下,数据会先写入一个数据结构,聚合算子写入Map,一边通过Map局部聚合,一边写入内存。Join算子写入ArrayList直接写入内存中。然后需要判断是否达到阈值,如果达到就会将内存数据结构的数据写入到磁盘,清空内存数据结构。

在溢写磁盘前,先根据key进行排序,排序过后的数据,会分批写入到磁盘文件中。默认批次为10000条,数据会以每批一万条写入到磁盘文件。写入磁盘文件通过缓冲区溢写的方式,每次溢写都会产生一个磁盘文件,也就是说一个task过程会产生多个临时文件。

最后在每个task中,将所有的临时文件合并,这就是merge过程,此过程将所有临时文件读取出来,一次写入到最终文件。意味着一个task的所有数据都在这一个文件中。同时单独写一份索引文件,标识下游各个task的数据在文件中的索引,start offset和end offset。

这样算来如果第一个stage 50个task,每个Executor执行一个task,那么无论下游有几个task,就需要50个磁盘文件。

Spark原理之SortShuffle_第1张图片 

bypass机制:

bypass机制运行条件:

shuffle map task数量小于spark.shuffle.sort.bypassMergeThreshold参数的值。
不是聚合类的shuffle算子(比如reduceByKey)。
在这种机制下,当前stage的task会为每个下游的task都创建临时磁盘文件。将数据按照key值进行hash,然后根据hash值,将key写入对应的磁盘文件中(个人觉得这也相当于一次另类的排序,将相同的key放在一起了)。最终,同样会将所有临时文件依次合并成一个磁盘文件,建立索引。

该机制与未优化的hashshuffle相比,没有那么多磁盘文件,下游task的read操作相对性能会更好。

该机制与sortshuffle的普通机制相比,在readtask不多的情况下,首先写的机制是不同,其次不会进行排序。这样就可以节约一部分性能开销。 

Spark原理之SortShuffle_第2张图片
 

你可能感兴趣的:(大数据)