hadop hive中小文件自动合并设置。

hive.merge.mapredfiles=true/false               --是否启用小文件合并。

hive.merge.smallfiles.avgsize=16000000 --16m。


一般hadoop默认的数据库块大小为128M 或者256M ,大量的小文件会造成集群mapreduce的时候,一个map处理小文件,浪费map资源。而且大量的小文件浪费集群存储资源。

如上设置之后会在mr的最后一步执行小文件合并,将小于16M的文件自动合并。

你可能感兴趣的:(hadop hive中小文件自动合并设置。)