hive有关的MapReduce大作业的性能问题(mapper数过多)

Hive查询涉及的小文件过多对MR作业的危害:
Hadoop2.X中的小文件是指文件size小于HDFS的块(block)大小(例如128M)的文件。
一般来说MapTask(Map任务)每次处理一个块大小的input(默认使用FileInputFormat)。如果input到map任务的文件很小而且数量很多,那么每一个map task只是处理很小的input数据,会产生大量的map tasks,每一个map task都会额外增加bookkeeping开销(each of which imposes extra bookkeeping overhead)。比如说一个1GB的文件拆分成8个块大小文件(默认block size为128M),相对于拆分成10000个100KB的小文件,后者每一个小文件分别启动一个map task,那么job的处理时间将会比前者要慢几十倍甚至更多。
所以需要对输入map任务的小文件们合并一下,hive-site.xml中有几个与合并小文件有关的参数。
hive.merge.mapfiles :是否开启合并 Map 端小文件,true是打开
hive.merge.mapredfiles :是否开启合并 Map/Reduce 小文件,true是打开
hive.hadoop.supports.splittable.combineinputformat :是否支持可切分的CombieInputFormat ,true是支持

hive有关的MapReduce大作业的性能问题(mapper数过多)_第1张图片

检验——
(1)开启之前

insert overwrite directory"ks3://test-hue/ctr/lookalike/users/cid=10/webid=10003945/dt=2018-09-27/label=positive/usersource=inner-data/"
SELECT uuid
FROM auction_adx_v3.reporthivelog
WHERE dt >= '2018-08-27' AND cid = 10 AND eventcode = 3 AND advertisementId IN ('5b6ba093e4b02538489b7ef7')
GROUP BY uuid;

hive有关的MapReduce大作业的性能问题(mapper数过多)_第2张图片
hive有关的MapReduce大作业的性能问题(mapper数过多)_第3张图片
此时Map()数量1968个。作业耗时:13 minutes

(2)开启合并小文件后
参数hive.merge.mapfiles 和 hive.hadoop.supports.splittable.combineinputformat 均已生效,
到Ambari页面查看已生效的参数:
hive有关的MapReduce大作业的性能问题(mapper数过多)_第4张图片

重启hive的HiveMetaStore服务和HiveServer2服务以后,执行作业检测运行性能:

insert overwrite directory 
"ks3://test-hue/ctr/lookalike/users/cid=10/webid=10003945/dt=2018-09-27/label=positive/usersource=inner-data/"
SELECT uuid
FROM auction_adx_v3.reporthivelog
WHERE dt >= '2018-08-27' AND cid = 10 AND eventcode = 3 AND advertisementId IN ('5b6ba093e4b02538489b7ef7')
GROUP BY uuid;

hive有关的MapReduce大作业的性能问题(mapper数过多)_第5张图片
此时mapper数量193个。作业耗时:5 minutes
很明显,性能的提升是由于设置了关键参数hive.hadoop.supports.splittable.combineinputformat之后产生的。

你可能感兴趣的:(大数据)