常见文件输入格式

1.TextInputFormat:  
    切片:和FileInputFormat切片一样,以文件为单位,默认128M为片大小切片!
    RR : LineRecordReader :   每一行作为一组key-value
         key:  行的偏移量
         value : 行的内容
2.CombineTextInputFormat :
    切片: 小文件切片,通过mapreduce.input.fileinputformat.split.maxsize控制切片!
    RR : LineRecordReader :每一行作为一组key-value
         key:  行的偏移量
         value : 行的内容
3.KeyValueTextInputFormat: 每行作为一组key-value,通过mapreduce.input.keyvaluelinerecordreader.key.value.separator
指定的分隔符(默认\t)进行分割,分隔符前为key,分隔符后为value,如果在行中没有分隔符,整行为key,value为null只将字符串的第一个字符作为分隔符!
    切片:和FileInputFormat切片一样,以文件为单位,默认128M为片大小切片!
    RR : KeyValueLineRecordReader:  
         key : Text
         value :  Text
4.NLineInputFormat : 以文件为单位,每mapreduce.input.lineinputformat.linespermap行作为1个切片!
    切片:    以文件为单位,将N行作为1个切片
    RR :LineRecordReader :   每一行作为一组key-value
         key:  行的偏移量
         value : 行的内容

你可能感兴趣的:(常见文件输入格式)