MapOutputBuffer理解的三重境界

作者:Lubin Liu


摘要

MapOutputBuffer作为MapTask的内部类,是MR中二次排序非常重要的一环。本文从基本认识,到详细过程,再到源码级别,由浅入深的介绍了这个类。


第一重:基本认识

1.1 MapOutputBuffer是什么?

简而言之,MapOutputBuffer是一个缓存Map输出,并局部排序的类。众所周知,MapReduce从整体上分为Map和Reduce两个阶段,但并不是每个job都必须兼备这两个。
比较简单的job可以只有Map阶段,Map的输出直接写入HDFS提供给用户使用。Reduce阶段,往往意味着数据的重新分配,也就是著名的"shuffle",“shuffle”阶段是根据Map阶段
输出的Key,计算Partition,并交给对应Reduce的过程。在进入“shuffle”阶段之前,我们需要对数据进行初步的排序,并按照partion分组,MapOutputBuffer负责这一过程的。
需要注意的是,这个类只有当job中有Reduce逻辑时才会被调用,因为不需要Reduce,也就没有数据的重新分配,也就没有partition的计算,也就没有排序。

1.2 为什么需要MapOutputBuffer?

从类名上我们可以猜到,这是一个Buffer,buffer的作用一般是为了缓存,那问题变成了为什么要作缓存?难道是仅仅为了累积数据加速写入?我认为不全是。Reduce在拉取数据时,是根据partition的。Map的输入顺序和输出顺序是没有关系的,直接输出的数据是完全乱序的,那拉取时就得把Map输出的数据全部扫一遍,只拿自己partition的,这非常的费时费力。所以设计者想到在写出的时候能不能保证局部有序呢,每次缓存一小部分数据,到一定量的时候,对他们按照partition排序,成块的写入到文件里,拉取的时候方便多了,只要看看哪个partition在哪个块。另一个原因是Combiner,我们知道这个模块是为了减少Shuffle数据量,而在map端局部的执行Reduce逻辑。要想达到这种效果,同样需要缓存和排序,将一个partition的小部分数据排到一起,调用一下Combiner再输出。

1.3 为什么要理解这个类?


首先,几乎每个Job都会自定义自己的partitioner,深刻理解其是怎样作用于数据,可以更好的设计。另外,MR框架提供了很多参数用来调整缓存和排序的行为,因为它深刻的影响了job的性能,更深入的理解有助于懂得如果参数调优。还有,很多job的运行时错误是这个阶段会抛出的,理解的深刻,可以快速定位问题。



第二重:详细理解运行过程

本节详细介绍MapOutputBuffer的运行过程,但只是定性和图解,不会给出源码级别的细节。



2.1 过程简介

MapOutputBuffer类里维护了一个环形缓冲区,每个输出的record都以key value的连同partition信息写入到这个缓冲区中,当缓冲区快满的时候,有一个后台的守护进程负责对数据排序,并写入磁盘。

2.2 主要变量定义

实现一个带meta信息的缓冲区所需变量,有点多,一下记不住没关系,统一列出为了方便查阅。
1. kvbuffer:环形缓冲区,字节数组,用于存储raw数据和meta信息。kvbuffer.length代表数组总长度
2. kvmeta:缓冲区的字节视角,并没有占据新的内存,主要方便插入meta信息。每个meta信息由4个int组成,分布如下

MapOutputBuffer理解的三重境界_第1张图片

一个metadata的长度是METASIZE=16
3. equator:缓冲区的中界点,raw的key value数据和meta信息分别从中界点往两侧填充。
4. kvindex:下次要插入的meta信息的起始位置
5. kvstart:溢写时meta数据的起始位置

6. kvend:溢写时meta数据的结束位置
7. bufindex:raw数据的结束位置
8. bufstart:溢写时raw数据的起始位置
9. bufend:溢写时raw数据的结束位置
10. spillper:当数据占用超过这个比例,会造成溢写,由配置“mapreduce.map.sort.spill.percent”指定,默认值是0.8
11. sortmb:kvbuffer占用的内存总量,单位是M,由配置“mapreduce.task.index.cache.limit.bytes”指定,默认值是100
12. indexCacheMemoryLimit:存放溢写文件信息的缓存大小,由参数“mapreduce.task.index.cache.limit.bytes”指定,单位是byte,默认值是1024*1024(1M)
13. bufferRemaining:buffer剩余空间,字节为单位
14. softLimit:字节单位的溢写阈值,超过之后需要写磁盘,值等于sortmb*spillper


2.3 初始状态

MapOutputBuffer理解的三重境界_第2张图片


初始时,equator位于0处,在写入数据时,raw data往下标增大的方向延伸,meta data沿着下标减小的方向扩展,如果按照环形缓冲区来看待,raw data永远是顺时针扩展的,meta data是逆时针扩展的。各个量的初始化情况也很清楚,bufstart,bufend,bufindex都位于起点0处,kvstart, kvend,kvindex沿逆时针方向推进4个int的大小,因为他们标记的是meta data开始要放置的位置。另一个重要变量,标记剩余空间的bufferRemaining因为开始时buffer为空,所以其值等于softLimit。


2.4 第一组对放入

MapOutputBuffer理解的三重境界_第3张图片


在做了空间检查之后(假设第一组空间一定足够,实际上不一定,第三重时会介绍),首先放入key,在bufindex的基础上累加key的字节,更新bufindex,再放入value,同样累加bufindex。接下来放meta data,从kvindex的基础上,按照定义好meta格式,加一个int放value的start的下标,加两个int放key start的下标,加三个放数据属于哪个partition,加四个放value得长度,由此meta可以准确定位到刚才放入的一对键值。注意kvstart, kvend, bufstart, bufend的位置并没有更新,也就代表了在后续放入的过程中也不会更不要忘记要从bufferRemaining中减掉相应的空间。

2.5 第一次达到spill 阈值

MapOutputBuffer理解的三重境界_第4张图片



随着数据的不断写入,kvIndex不断减少,bufIndex不断增加,bufferRemaining不断减小,当bufferRemaining空间不足时,就该触发溢写线程了。由(kvindex—4int)顺时针到到bufindex是已经被使用过的部分,由(kvindex+4int)逆时针到bufindex的空间是未使用的部分。溢写的触发在写入meta数据和raw数据时都有可能发生。

2.6 溢写与更新

MapOutputBuffer理解的三重境界_第5张图片

溢写开始之前,首先会更新kvend和bufend的位置,kvend等于kvindex+4int,因为每次kvindex总是标示下次要插入的位置,回退4int才是最后meta data写入的位置,kvstart不变,标志第一个metadata写入的位置。bufend是最后一条记录value结束的位置,bufstart标志第一个key开始的位置。kvstart与kvend之间是全部meta data,bufstart与bufend之间是raw data。溢写过程是守护线程完成的,在溢写过程中正常的写入缓冲区还可以继续。这也就是spillper的用处,1-spiller就近似代表了溢写触发时还可以使用的比例。
写入需要确定新的equator,新的equator一定位于kvend逆时针到bufend之间,也就是在空余空间的某个位置。我们期望写入过程尽可能的不要受溢写过程的影响,也就是写入的时候要利用当前的空余空间,而不应该侵入已经有数据的空间,新的equator要尽可能均匀的切分空闲空间,均匀的标准是要能放入meta+key+value组合。确定了equator就可以更新kvindex和bufindex的位置了,meta数据与raw数据的扩展方向是不变的,kvindex还是在下一个要插入meta的起始位置。bufferRemaining也会相应更新。剩下的可写入空间不应该是所有的空余空间,而是equator到kvend,bufend之间空间比较小的那个。任何一个用完,都代表不能继续写入了。

第三重:源码级详细分析


经过第二重境界,你一定对数据写入与溢出的过程有了了解,如果想继续深入掌握所有细节,请往下看。

3.1 一个buffer,两种视角

从前面的描述可以知道,raw数据和meta数据都是操作在一个buffer上得,但raw数据是以字节流写入的,meta数据的每次插入都是int类型的,这怎么做到的?


MapOutputBuffer理解的三重境界_第6张图片

ByteBuffer是一个抽象类,封装了byte数组之上的getXXX,putXXX等方法,可以把byte数组当成其他类型的数组使用。wrap方法是将byte数组与最终要返回的数组绑定起来,order方法设定字节是“大端”存放还是“小端”存放。ByteOrder.nativeOrder()返回的是跟机器硬件一致的结果,测试硬件是哪种放法最终用到了sun.misc.Unsafe类,大概就是放一个long(0x0102030405060708L)进内存,再取最低位的那个byte出来,如果是“0x01",就是大端法,如果是"0x08",就是小端。asIntBuffer是个抽象方法,交给子类实现的,就不展开了。


3.2 控制排序行为的一些参数的初始化

高端用户可以通过调节下列这些参数,优化排序行为。

mapreduce.map.sort.spill.percent
简介:溢写的阈值,一个大于0,小于等于1的float。当buffer中已写数据比例超过这个,会启动后台的溢写线程。
默认值:0.8

mapreduce.task.io.sort.mb
简介:用于排序过程的内存总大小,单位是M。
默认值:100


mapreduce.task.index.cache.limit.bytes
简介:存放spill文件索引文件的内存大小。索引文件超出此限制之后,后面的索引文件会跟spill文件本身一起写磁盘。
默认值:1M

map.sort.class
简介:用户可以自定义用于排序的函数。跟其他组件一样,也可用反射构造出来。需要实现IndexedSorter接口。
默认值:org.apache.hadoop.util.QuickSort

3.3 封装序列化的数据结构

集群区别于单机的重要一点是,集群中的机器常常需要交换数据。任何网络传输的数据都需要可序列化。mapper的输出是会通过网络shuffle给reducer的,因此要求数据可序列化。序列化操作交由”Serializer"对象完成。序列化之前需要指定数据格式,并与一个输出流绑定。如下:

MapOutputBuffer理解的三重境界_第7张图片

Serializer对象的“serialize"方法最终是由绑定的OutputStream的write方法完成的。OutputStream在这里有两个实现类,一个是上面列出的BlockingBuffer,另一个是Buffer,两者都是内部类。Buffer实现了write方法,而BlockingBuffer是Buffer的进一步封装。Buffer的write方法,首先会判断有没有足够的空间存放raw数据,空间不足的情况我们后面再讨论,现在确定空间足够,写入的代码。
MapOutputBuffer理解的三重境界_第8张图片
MapOutputBuffer理解的三重境界_第9张图片

虽然在逻辑上,kvbuffer是个环状缓冲区,但是物理上只是内存中的一段连续空间。len代表的是待插入数据的长度,bufindex是起点,bufindex+len是终点,如果终点超过buffer的长度(bufvoid),我们就应该将多余部分移到buffer开始的部分。每次将buffer中数据spill到本地磁盘时,会按照raw数据的key进行排序。输入到RawComparator中
的key要求是内存中的一段连续空间,而上面写入的逻辑,有可能将key一段写在buffer尾部,另一部分写在buffer头部(如上图Overflow)。BlockingBuffer在Buffer的基础上封装了调整key放置的操作,即将整个key移到起始位置。放入之前,从起始位置到meta边缘的部分是空闲的。这里有两种情况,如果空余空间足够放入key(如上图的Enough space),可以直接拷贝过去,如果空间不足(如上图的Crash),就得触发溢写,腾一些空间出来。
我在代码里加了详细的注释。
MapOutputBuffer理解的三重境界_第10张图片

3.4 溢写线程的同步

溢写由SpillThread作为一个守护线程完成。

3.4.1 同步控制综述

Java的object类有三个与线程同步相关的方法,即wait,notify,notifyall,方法为final,任何java中的对象都继承这三个方法,且不能重写。三个方法都必须运行在针对某个对象的synchronize块中。wait的语义是当前线程等待,要求线程必须拥有对象的锁,也就是暂时交出锁,等待再次获得。notify的语义是唤醒某个正在等待对象锁的线程,具体哪个不被保证,也就是释放锁。notifyall的语义是唤醒所有等待对象锁的线程。我认为直接使用object类的方法有两个问题,首先,加锁对象同时肩负同步控制和业务逻辑,代码可读
性太差,其次,当多个线程等待唤醒,行为不受程序控制,粒度太粗。

好在java1.5之后引入了“Condition”。此对象的await和signal方法对应于object的wait和notify。Condition由Lock创建,与Lock绑定,需要运行于“lock.lock"与”lock.unlock"之间。一个lock可以 有多个condition,就像在锁上有状态队列,可以精确控制唤醒哪个状态。ReentrantLock是Lock的一 个实现,spillThread正是由这种锁控制的。初始化时,有下列语句:

MapOutputBuffer理解的三重境界_第11张图片

spillLock对象有两种Condition,spillDone和spillReady。需要同步的两个线程是主线程和spillThread。另外有两个boolean量表示状态,spillThreadRunning是volatile的,保证同时对两个线程看见。

3.4.2 spillDone

spillDone是标志一次spill过程完成的Condition,sillDone.await的语义是,阻塞当前线程,暂时释放锁,直到spill完成后重新获得锁再返回,spillDone.signal的语义是,一次spill过程完整完成。spillDone.await在代码中出现了三次,spillDone.signal,第一次是在init方法启动spillThread的时候,等待spillThread进入循环,第二次是在Buffer.write方法中,空间严重不足,需要等待完全spill完成才可以继续,第三次是在flush方法中,flush方法在close方法中被调用,负责收尾工作,所以已经要等待spill完成才可以。
spillDone.signal只在代码中出现一次,位置是SpillThread的run方法,每次while循环开始的时候会调用一次,标志上一次spill已经完成。


3.4.3 spillReady

spillReady标志spill的条件已经成熟的Condition,spillReady.await的语义是等待spill的条件,阻塞当前线程,暂时释放锁,spillReady.signal的语义是spill条件已经达到,spillThread应该开始工作。spillReady.await在代码中出现一次,是SpillThread.run循环开始的地方,等待条件成熟。spillReady.signal在代码中出现一次,是startSpill中,会触发spillThread开始工作。startSpill是当空间不足时会被调用。空间不足是通过判断bufferRemaining的。前面提到,初始化时,bufferRemaining是在总空间的基础上乘以一个系数的,每次meta的写入和raw data的写入都会减小bufferRemaining,当这个值小于等于0时,就会触发溢写。溢写触发发生在两个地方,一个是meta数据写入时,一个是
raw data写入时。


3.4.4 spillThreadRunning

标记spillThread是否在运行的boolean,初始值为false,在spillThread开始时置为true,退出时置为false。

3.4.5 spillInProgress

标记spillThread是否真的在spill数据的boolean,初始值为false,在startSpill方法中被置为true,与spillDone及spillReady配合使用完成循环等待,在达到溢写条件时,也会根据这个量判断需不需要startSpill。当一次溢写完成后,会被置为false。

3.5 溢写时数据排序的细节

溢写时,会先对所有的key按照partition排序,partition相同的,按照OutputKeyComparator进行排序。每个partition的数据,也叫一个segment,对应一个writer,如果设置了combiner,会作用于一个partition内部的数据。最后,一次合并的信息(segment的起始位置,raw数据的长度,压缩后数据长度)会写入缓存,并在适宜的时候成批的写入文件。



private void sortAndSpill() throws IOException, ClassNotFoundException,
InterruptedException {
//approximate the length of the output file to be the length of the
//buffer + header lengths for the partitions
final long size = (bufend >=bufstart
? bufend -bufstart
: (bufvoid - bufend) + bufstart) +
partitions * APPROX_HEADER_LENGTH;
FSDataOutputStream out = null;
try {
// create spill file
final SpillRecord spillRec = new SpillRecord(partitions);
final Path filename =
mapOutputFile.getSpillFileForWrite(numSpills, size);
out = rfs.create(filename);
final int mstart = kvend / NMETA;
final int mend = 1 + // kvend is a valid record
(kvstart >=kvend
?kvstart
: kvmeta.capacity() + kvstart) / NMETA;
//对meta key进行排序,先按照partition,partition内部根据OutputKeyComparator
sorter.sort(MapOutputBuffer.this, mstart, mend, reporter);
int spindex = mstart;
final IndexRecord rec = new IndexRecord();
final InMemValBytes value = new InMemValBytes();
//循环遍历各个partition
for (int i = 0; i < partitions; ++i) {
IFile.Writer writer = null;
try {
long segmentStart = out.getPos();
//对应此次循环的写入
writer = new Writer(job, out, keyClass, valClass, codec,
spilledRecordsCounter);
if (combinerRunner == null) {
// spill directly
DataInputBuffer key = new DataInputBuffer();
while (spindex < mend &&
kvmeta.get(offsetFor(spindex % maxRec) + PARTITION) == i) {
final int kvoff = offsetFor(spindex % maxRec);
int keystart = kvmeta.get(kvoff + KEYSTART);
int valstart = kvmeta.get(kvoff + VALSTART);
key.reset(kvbuffer, keystart, valstart - keystart);
getVBytesForOffset(kvoff, value);
writer.append(key, value);
++spindex;
}
} else {
int spstart = spindex;
while (spindex < mend &&
kvmeta.get(offsetFor(spindex % maxRec)
+ PARTITION) == i) {
++spindex;
}
// Note: we would like to avoid the combiner if we've fewer
// than some threshold of records for a partition
if (spstart != spindex) {
combineCollector.setWriter(writer);
RawKeyValueIterator kvIter =
new MRResultIterator(spstart, spindex);
combinerRunner.combine(kvIter, combineCollector);
}
}
// close the writer
writer.close();
// record offsets
rec.startOffset = segmentStart;
rec.rawLength = writer.getRawLength();
rec.partLength = writer.getCompressedLength();
spillRec.putIndex(rec, i);
writer = null;
} finally {
if (null != writer) writer.close();
}
}
if (totalIndexCacheMemory >= indexCacheMemoryLimit) {
// create spill index file
Path indexFilename =
mapOutputFile.getSpillIndexFileForWrite(numSpills,partitions
* MAP_OUTPUT_INDEX_RECORD_LENGTH);
spillRec.writeToFile(indexFilename, job);
} else {//加入缓存
indexCacheList.add(spillRec);
totalIndexCacheMemory +=
spillRec.size() * MAP_OUTPUT_INDEX_RECORD_LENGTH;
}
LOG.info("Finished spill " + numSpills);
++numSpills;
} finally {
if (out != null) out.close();
}
}


3.6 收尾工作

收尾工作是由Buffer.flush这个函数完成的。主要有两点,首先,要保证spillThread将buffer中所有的数据都写入磁盘,并安全退出,其次,要将所有spill溢写的小文件合并成一个大得文件,作为mapper
最后的输出。安全退出时,首先会等待借助spillDone这个condition,等待spillThread完成最后一次spill,然后根据buffer的状态量(kvend,kvindex等)判断buffer是否已经spill完全,如果有剩余数据,会最后调用一
次"sortAndSpill",注意这次spill是主线程完成的。spill完成后,调用


spillThread.interrupt();
spillThread.join();


杀掉spillThread。
将小文件合并成大文件是在函数mergeParts中完成的,代码稍微有点长,但过程很清楚。每个mapper最终只输出一个数据文件finalOutputFile和一个与之对应的index文件finalIndexFile。我们知道,mapper时段用的partition,实际上与reducer对应,reducer会拉取属于自己的那段
partition,因此,finalOutputFile中,数据是按照partition来存放的,每个finalIndexFile文件中的项,就指向了finalOutputFile中的一个partition,存储了它的起始位置,压缩前长度和压缩后长度。回想一下,我们在输出每次spill的小文件时,也是按照partition存放的,并且也有一个index文件,因
此,最后合并的时候有一个二重循环,外层循环遍历partition,内层循环遍历spill file,每次把属于一个partition的那些小segment取出来,使用归并排序合并到一起,写入最终的文件,并记录index即与输出小文件时相同,最终这次合并,也可选的会调用combiner。

结语

这篇博客由浅入深的介绍了MapOutputBuffer在整个框架中起到的作用,并详细描述了其对数据缓存和排序的过程。


参考文献
[1] MapOutputBuffer, http://grepcode.com/file/repo1.maven.org/maven2/org.apache.servicemix.bundles/org.apache.servicemix.bundles.hadoop-client/2.4.0_1/org/apache/hadoop/mapred/MapTask.java#MapTask.MapOutputBuffer








你可能感兴趣的:(JAVA,平台,开发)