spark 调优:控制输出文件的个数

DataFrame输出结果保存为文件时,尤其是根据某个条件分区时,可以控制输出文件的个数,从而减少小文件的个数

DataFrame..coalesce(1).write.format("parquet").mode(SaveMode.Overwrite).partitionBy("分区条件列名").save("路径")

这里coalesce指定输出文件个数

你可能感兴趣的:(开发总结,spark)