Hive优化(十三)-小文件进行合并

小文件进行合并

在Map执行前合并小文件,减少Map数:

  • CombineHiveInputFormat具有对小文件进行合并的功能(系统默认的格式)。
  • HiveInputFormat没有对小文件合并功能。

1) 参数设置

set mapred.max.split.size=112345600;
set mapred.min.split.size.per.node=112345600;
set mapred.min.split.size.per.rack=112345600;
set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

这个参数表示执行前进行小文件合并,前面三个参数确定合并文件块的大小,大于文件块大小128m的,按照128m来分隔,小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的),进行合并。

你可能感兴趣的:(Hive优化(十三)-小文件进行合并)