RDD分区数量

假设:

  1. 服务器是2vcore

  1. master - local[5]

那么:

1. parallelize(list, numSlices=5)

分区数由numSlices参数决定,如果没有指定该参数,则由local[5]决定

2. textFile(文件路径, minpartitions=N)

如果没有指定minpartitions,则minpartitions=min(local[5], 2)

分区数量 = max(文件分片数量, minpartitions)

你可能感兴趣的:(hadoop,hadoop,spark)