大数据||MapReduce的shuffle

mapreduce的数据处理过程中,shuffle出于map和Reduce之间。
Shuffle:洗牌或弄乱。
Collections.shuffle(List):随机地打乱参数list里的元素顺序。
MapReduce里Shuffle:描述着数据从map task输出到reduce task输入的这段过程。

mapreduce处理过程 input --> map --> shuffle --> reduce -->output

大数据||MapReduce的shuffle_第1张图片

MapReduce shuffle

大数据||MapReduce的shuffle_第2张图片

MapReduce优化

  • 分区Partitioner
  • 排序Sort
  • 合并Combiner(可选)
  • 压缩Compress(可选)
  • 分组Group
  • Reduce Task Number
  • Map Task 输出压缩
  • Shuffle Phase 参数
大数据||MapReduce的shuffle_第3张图片
大数据||MapReduce的shuffle_第4张图片

MapReduce Shuffle过程如何在Job中进行设置

大数据||MapReduce的shuffle_第5张图片
image.png

你可能感兴趣的:(大数据||MapReduce的shuffle)