关于小文件切片的虚拟存储过程

CombineTextInputFormat.setMaxInputSplitSize(job, 4194304)
关于小文件切片的虚拟存储过程_第1张图片
1.虚拟存储过程,

  • Size< and < 2*Size 直接平均分割成两份
  • 2*Size<  先割一份Size
    

2.切片

    1. Size<块 单独形成切片

关于小文件切片的虚拟存储过程_第2张图片

CombineTextInputFormat.setMaxInputSplitSize(job,4194304);
job.setInputFormatClass(CombineTextInputFormat.class);
//这样修改,或者修改配置文件mapreduce.job.inputformat.class

你可能感兴趣的:(hadoop,大数据,hadoop,mapreduce)