MapReduce大量小文件问题
1.默认情况下,TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给maptaskz这样,如果有大量小文件,就会产生大量的maptask,处理效率及其低下
2.优化方法:
最好的办法:在数据处理系统的最前端(预处理/采集),就将小文件合并成大文件,再上传到HDFS做后续分析
补救措施:如果已经是大量小文件存在hdfs中了,可以使用另一种IinputFormat切片(combineFileInputFormat),它的切片逻辑跟FileInputFormat不同,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个maptask
一、调整hive作业中的map数
1.通常情况下,作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);
2.举例:
a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数
b)假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数,即,如果文件大于块大小(128m),那么会拆分,如果小于块大小,则把该文件当成一个块。
3.是不是map数越多越好?
答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。
4.是不是保证每个map处理接近128m的文件块,就高枕无忧了?
答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时。
我通过以下方法来在map执行前合并小文件,减少map数:
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
增加map数方法:
1、可以合理调整以下参数可以达到增加map数目的:
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
2、重建目标表将物理分区切分成多份,如下:
create table emp002 as select * from emp distribute by rand(10);
二、调整hive作业中的reduce任务个数
1、调整reduce任务个数方法一:
设置参数:
set hive.exec.reducers.bytes.per.reducer=1000000000;
set hive.exec.reducers.max=999;
2、设置reduce任务个数方法二:
调整参数:
set mapred.reduce.tasks=10;
三、hive合并输入输出文件
如果Hive的输入文件是大量的小文件,而每个文件启动一个map的话是对yarn资源的浪费,同样的,hive输出的文件也远远小于HDFS块大小,对后续处理也是不利的。
HIVE中支持通过参数调整输入和输出的文件大小
1、合并输入文件
set mapred.max.split.size=256000000; #每个Map最大输入大小
set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小
set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小
set hive.input.format=org.apache.Hadoop.hive.ql.io.CombineHiveInputFormat; #执行Map前进行小文件合并
开启org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一个data node节点上多个小文件会进行合并,合并文件数由mapred.max.split.size限制的大小决定,mapred.min.split.size.per.node决定了多个data node上的文件是否需要合并,mapred.min.split.size.per.rack决定了多个交换机上的文件是否需要合并。
2、合并输出文件
set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件
set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge。
以上参数在hive-0.13.1中默认值如下:
hive (default)> set hive.merge.mapfiles;
hive.merge.mapfiles=true
hive (default)> set hive.merge.mapredfiles;
hive.merge.mapredfiles=false
hive (default)> set hive.merge.size.per.task;
hive.merge.size.per.task=256000000
hive (default)> set hive.merge.smallfiles.avgsize;
hive.merge.smallfiles.avgsize=16000000
综上所述:一个可能的hive 作业可以设置为以下格式:
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.exec.reducers.bytes.per.reducer=1000000000;
set hive.exec.reducers.max=256;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles =ture;
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=16000000;
select deptno,count(1) from emp group by deptno;
或者
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set mapred.reduce.tasks=10;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles =ture;
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=16000000;
select deptno,count(1) from emp group by deptno;