Spark读取HDFS文件分区数量确定

结论

  1. split数量决定分区数量
  2. split数量取决于textFile ("", partitionNum)参数
  3. goalsize = totalsize / partitionNum
  4. splitsize = Max(minSize,Max(goalsize, blocksize))
  5. 文件大小大于splitsize 1.1倍会被拆分
  6. 一个分区只能包含一个文件
  7. 分区数量 >= 文件数量
  8. 参考地址:https://www.jianshu.com/p/e33671341f0d

你可能感兴趣的:(大数据基础)