【大数据开发】HDFS小文件合并四种方式

直接写数据到HDFS时,我们不可避免的要处理小文件问题,一般有
1.落地之前增大batch(即增大了延迟)
2.coalesce(分区合并)
3.外部程序Merge
4.Append(如果文件没有达到指定大小,下一个批次写数据的时候不创建新文件,而是和已存在的小文件合并)
四种方式,各有其使用场景,如论哪种方式,无疑会增加我们的工作量。但是如果通过hudi写入数据,小文件的问题hudi自身会帮你解决,hudi自身解决的方案是`方法4

你可能感兴趣的:(#,HDFS,学习总结,#,大数据面试题,hadoop)