hadoop汇总

1.SequenceFile用于合并大量小文件,CombineFileInputFormat把多个文件打包到一个split,来处理大量小文件。

2.避免切分:修改最小切片大小,达到需要处理的文件;或者使用FileInputFormat子类,并且覆盖isSplitable()方法。

3.处理xml文档:采用避免切片的方式。用StreamXmlRecordReader来进行处理。

你可能感兴趣的:(用户)