目录
1. MapReduce的shuffle机制(必背)
2. 在map阶段,框架可以执行Combiner操作【可选】
3. shuffle衍生出来的几个问题
3.1 环形缓冲区溢写之前要进行排序?
3.2 环形缓冲区的溢写,会产生多个溢写文件,按照对应分区的数据进行归并排序。将排序后的数据存储到磁盘上(比如:0,1号分区的文件)
3.3 Reduce阶段:
3.4 哪些地方能够压缩?
3.5 shuffle优化
4. Mapreduce 的 map 数量 和 reduce 数量是由什么决定的 ,怎么配置
5. Partition分区类别与规则
MapReduce是一种分布式计算模式,由两个阶段组成:Map和Reduce
Shuffle横跨map阶段和reduce阶段,是把数据从map端拷贝到reduce端的一个过程。
具体过程:
1. MR首先对数据进行分片,一个split产生一个mapTask任务,
2. MapTask会调用map函数把数据处理成
3. MapTask的输出会先写入到内存缓冲区(100M),当内存缓冲区的大小达到80%的大小,会把内存中的数据溢写到磁盘里面(溢写之前会进行分区排序,按照key进行升序排列),一直等到MapTask把所有的数据都计算完,最后会把内存缓冲区里面剩余的数据一次性全部刷新到本地磁盘文件中。
4. 每个文件都是有多个分区的,同一个分区的数据放到一起。
5. 把所有的临时文件合并成一个大文件,因为一个map任务只会生成一个文件(也有多个分区),每个分区的数据会被shuffle线程拷贝到不同的reduce节点上。不同map任务相同分区的数据会被分到都同一个reduce节点进行合并,合并之后就会执行Reduce的功能,最终产生我们最终的结果数据。
可以在map阶段执行reduce逻辑,进行局部规约。
注意:并不是所有的场景适合使用规约,比如求平均值的场景。
(1)排序的手段:快排
(2)对谁排序: key的索引
(3)按照什么顺序排序:字典顺序
reduceTask去各个MapTask上拷贝同一分区的数据(只拷贝一个分区的)。数据放到内存->磁盘,然后进行归并、分组,进入reduce
map输入端、map输出端、reduce输出端
(1)map输入端的数据考虑什么?数据量超过128M需要考虑切片,切片:lzo/bzip2
(2)map输出端考虑什么呢? 要考虑速度快, snappy/lzo/bzip2
(3)reduce输出端要考虑什么呢?要看数据最终流向。永久保存、切片(进入一下MR)
1)设置环形缓冲区大小为200兆,溢写比率设置为90-95%(可以减少溢文件的个数)
2)对溢写文件combine
3)对溢写文件进行归并,默认一次10个,可以改为20个(服务性能ok)
4)压缩优化:压缩snappy/lzo
5)增大reduce阶段拉取的个数:假如有100maptask,reduce默认一次拉取5个maptask分区的数据,Reduce性能Ok可以设置10~15,增加内存。
默认分区
public class HashPartitioner extends Partitioner{
public int getPartition(K key,V value, int numReduceTasks){
return(key.hashCode()& Integer.MAX_VALUE) % numReduceTasks;
}
}
自定义分区
public class xxx extends Partitioner{
@Override
public int getPartition(Text key,xxx value, int numReduceTasks){
// 控制分区代码逻辑
...
...
...
return Partition;
}
}
job.setPartitionerClass(CustomPartitioner.class);
job.setNumReduceTasks(n);