MapReduce-hadoop-尚硅谷

第1章 MapReduce概述

MapReduce-hadoop-尚硅谷_第1张图片
MapReduce-hadoop-尚硅谷_第2张图片
MapReduce-hadoop-尚硅谷_第3张图片

1.3 MapReduce核心思想

MapReduce-hadoop-尚硅谷_第4张图片
在这里插入图片描述

1.4 MapReduce进程

MapReduce-hadoop-尚硅谷_第5张图片

1.6 常用数据序列化类型

MapReduce-hadoop-尚硅谷_第6张图片

1.7 MapReduce编程规范

用户编写的程序分成三个部分:Mapper、Reducer和Driver。
MapReduce-hadoop-尚硅谷_第7张图片

第3章 MapReduce框架原理

3.1 InputFormat数据输入

3.1.1 切片与MapTask并行度决定机制

MapReduce-hadoop-尚硅谷_第8张图片
切片数等于mapTak的并行度,及一个切片对应一个mapTask

多个文件单独切片

默认切片大小为128M与HDFS物理存储的black一样
MapReduce-hadoop-尚硅谷_第9张图片

3.2 MapReduce工作流程(面试重点)

默认每次读取文件中一行的数据处理

map阶段
MapReduce-hadoop-尚硅谷_第10张图片
Reduce阶段
MapReduce-hadoop-尚硅谷_第11张图片
MapReduce-hadoop-尚硅谷_第12张图片
MapReduce-hadoop-尚硅谷_第13张图片

3.3 Shuffle机制

3.3.1 Shuffle机制

Shuffle : 数据洗牌

Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。如图4-14所示。
MapReduce-hadoop-尚硅谷_第14张图片

3.3.2 Partition分区

MapReduce-hadoop-尚硅谷_第15张图片
MapReduce-hadoop-尚硅谷_第16张图片
MapReduce-hadoop-尚硅谷_第17张图片

3.3.8 Combiner合并案例实操

MapReduce-hadoop-尚硅谷_第18张图片

3.4 MapTask工作机制

156
MapTask工作机制如图4-12所示。
MapReduce-hadoop-尚硅谷_第19张图片
MapReduce-hadoop-尚硅谷_第20张图片
MapReduce-hadoop-尚硅谷_第21张图片

3.5 ReduceTask工作机制

1.ReduceTask工作机制
ReduceTask工作机制,如图4-19所示。
MapReduce-hadoop-尚硅谷_第22张图片
MapReduce-hadoop-尚硅谷_第23张图片
MapReduce-hadoop-尚硅谷_第24张图片

你可能感兴趣的:(#,hodoop)