Spark 分区

例子:一个RDD中存储许多tuple格式的数据,如下所示

RDD<("2015-12-01",[a,b]),("2015-12-02",[c,d]),("2015-12-03",[e,f]),("2015-12-04",[g])......>

例子:spark集群三台x,y,z物理机器,并且RDD中的数据重新分划分为3个分区,每个分区的数据情况会均匀的分布到三台物理机器上,如下:

如果(“2015-12-01”,[a,b]),视为分区1  这个数据在x机器上
如果(“2015-12-02”,[c,d]),视为分区2  这个数据在y机器上
如果(“2015-12-03”,[e,f]),视为分区3,这个数据在z机器上
如果(“2015-12-03”,[g,k]),视为分区3,这个数据在z机器上

毫无疑问,当任务执行的时候,三台物理机器会同时在每个分区的数据上做运算。





你可能感兴趣的:(Spark 分区)