HDFS小文件处理方法

HDFS小文件处理

1.采用har归档文件(将多个小文件打包成后缀为.har的文件

2.采用CombineTextInputFormat(将多个小文件逻辑规划到一个切片中

3.自己设计一个MR程序将多个小文件合并成一个大文件,如果是hive或者spark,自带merge功能

4.开启JVM重用

如果没有小文件,不要开启JVM重用,因为会一直占用使用到的Task卡槽,直到任务完成才释放

JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间


    mapreduce.job.jvm.numtasks
    10
    How many tasks to run per jvm,if set to -1 ,there is  no limit
 

你可能感兴趣的:(hdfs,大数据,spark)