hadoop中mapreducer的数据输入(InputFormat)原理详解

查看了hadoop 的源代码,终于搞明白MapReducer作业的数据输入原理,成果如下:
Hadoop中MapReducer的作业的输入通过InputFormat接口提供;

InputFormat提供的功能如下:将输入的文件,分成逻辑上的切片InputSplit,每一个InputSplit会分配给一个Mapper处理,RecordReader负责从InputSplit中读取键值对(一个键值对属于一条记录),然后交给InputSplit对应的Mapper处理,内部实现就是典型的生产者消费者模式了。因此InputSplit表示需要被一个Mapper处理的数据
RecordReader读取的Record是交给Mapper执行一次map方法来处理的数据

TextInputFormat实现细节
TextInputFormat继承了FileInputFormat
在getSplit方法中,会将输入的数据即文件切成片,片信息存储在FileSplite中,分片的规则按照HDFS文件系统对文件分片的规则,FileSplite中会维护该块所属文件的地址,起始字节数,长度,以及块在文件系统中存储的节点的主机名称。
使用createRecordReader(InputSplit split,  TaskAttemptContext context)方法将每一个FileSplite封装到RecordReader中,RecorderReader成为为Mapper提供输入的工具,一个RecorderReader对应一个Mapper, 一个FileSplite对应一个RecorderReader
对于每一个Split需要用RecordReader去读取,默认是LineRecordReader读取,即每次读取一行,即读取上一个"\n"下一个"\n"之间的数据
LineRecordReader中维护有SplitLineReader,FSDataInputStream对象,

在RecordReader中跨Split的行是这样处理的:如果不是第一个文件块,通常会丢掉该块的第一条记录,如果不是最后一个文件块,通常会从下一个文件块额外读取一条记录
这样处理,如果有一条记录是跨行记录,则作为前一个文件块的最后一行,如果没有跨行记录,则下一个文件块的第一条记录实际是由上一个文件块读取

你可能感兴趣的:(hadoop)