MapReduce小文件问题

MapReduce小文件问题

(1).小文件处理的弊端

1.每个小文件都要执行一次map任务,增加map任务的开销.

2.小文件太多,会耗费很多时间去寻址.

3.需要记录小文件的元数据,造成namenode的内存浪费.

(2)解决办法

1.尽量避免出现小文件,将多个小文件合并成一个顺序文件,文件名作为键,文件内容作为值.

2.如果HDFS中出现了大批小文件,CombineFileInputFormat将多个小文件打包到一个分片中.

3.使用Hadoop自带的archive工具,主要减少namenode的负载.

你可能感兴趣的:(mapreduce)