Spark Core 子模块 Shuffle 分析

一、前言

1. 相关版本:Spark Master branch(2018.10, compiled-version spark-2.5.0, 相关的测试设置了spark.shuffle.sort.bypassMergeThreshold   1  和 YARN-client 模式) ,HiBench-6.0 and Hadoop-2.7.1

2. 建议先了解Spark 的 RDD、DAG、Memory 的基本概念。

二、 Spark Core 子模块 Shuffle 

Shuffle是性能相关的一个重要环节,而Spark在shuffle上演进了好几个版本,到V2.4有一个不错的性能 。

1. Shuffle Writer 和 Shuffle Reader Overview

 

Spark Core 子模块 Shuffle 分析_第1张图片

 

2. UnsafeShuffleWriter和SortShuffleWriter的详细对比

Spark Core 子模块 Shuffle 分析_第2张图片

3. 基于ResultTask看ShuffleRead

Spark Core 子模块 Shuffle 分析_第3张图片

你可能感兴趣的:(Spark)