Spark任务中Partition分区与HDFS中的Block数据块

hdfs-block位于存储空间;spark-partition位于计算空间;

hdfs-block的大小是固定的;spark-partition大小是不固定的;

hdfs-block是有冗余的、不会轻易丢失;spark-partition(RDD)没有冗余设计、丢失之后重新计算得到;

#

你可能感兴趣的:(Spark任务中Partition分区与HDFS中的Block数据块)