关于Map的理解

Shuffle中进行了分组聚合,而Reduce对分组聚合后的数据进行重新计算.
切片对应的是MapTask
分区对应的是ReduceTask

也可以通过设定reduce数量来调整分区数

分区规则:
设定为1时, 根本不走自定义分区器,而是Hash
如果分区数大于规则 空
如果分区数小于规则(分区数不为1) 报错

小文件的处理
设置输入流的类来控制小文件,
关于Map的理解_第1张图片
关于Map的理解_第2张图片
这里的cCombiner分区合并指的是 直接在shuflle进行计算 比如 sum什么的
关于Map的理解_第3张图片
这个分区合并,就是不同task的相同区号的分区进行合并,例子: task1的分区1和task2的分区1进行合并
关于Map的理解_第4张图片

在到Reduce之前进行分组
关于Map的理解_第5张图片

你可能感兴趣的:(大数据,hadoop,大数据)