从源码分析MapReduce的数据切片原理

切片过程从JobSubmitter的writeSplits()开始

从源码分析MapReduce的数据切片原理_第1张图片

---step into writeNewSplits()

从源码分析MapReduce的数据切片原理_第2张图片

---step into getSplits() 开始获取新的切片

首先会选出Format默认最小值和配置文件中设置的切片最小值  二者中最大的一个

从源码分析MapReduce的数据切片原理_第3张图片

getFormatMainSplitSize()默认返回值为1 

getMinSplitSize()中,如果配置文件未设置切片大小的话,默认值为1

getMaxSplitSize()方法,如果配置文件中未设置切片最大值的的话默认为Long类型最大值

从源码分析MapReduce的数据切片原理_第4张图片

获取files文件集合

循环遍历files集合并获取路径和长度信息,此过程说明了在进行数据切分的时候是对每一个文件且依照长度进行切分的

切分前需要判断文件时候可以切割(如一些压缩文件切割后就无法使用)

从源码分析MapReduce的数据切片原理_第5张图片

获取blocksize = 33554432  计算blocksize/1024/1024 = 32M

这个结果在不同情况下可能不不同,因为此时我是在本地运行的,可能由于考虑到本地机器性能

所以默认分配blocksize为32M,如果在集群中运行的话会默认为128M

假设我们要存储一个65M的文件,首先 65/32 > 1.1会创建第一个切片

然后 (65-32) / 32 < 1.1 但是还有33M的数据没有存储,那么这33M会共同放在第二个切片中

所以当在本地运行时,一个65M的数据会分在两个切片存储,并把这个切片放在split集合中

接下来会重新进入循环来遍历切分下一个 文件

为何是1.1? 

从源码分析MapReduce的数据切片原理_第6张图片

切分完成后直接返回splits集合

再将集合转成数组(便于排序),长度为切片的个数

并对切片进行排序

最终返回数组长度(也是切片的个数,返回给maps,需要保证maptasks和maps的数量一致)

继续返回maps给jobsubmitter中的maps

 

你可能感兴趣的:(从源码分析MapReduce的数据切片原理)