spark RDD的内部数据结构及不足

RDD由以下几个主要部分组成:
partitions,partition集合,一个RDD中有多个data partition
dependencies,RDD依赖关系,即对其他RDD的依赖列表
compute,对于给定的数据集,需要作哪些计算,针对每个partition的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数。
preferedLocations,对于data partition的位置偏好

不足:
1.主要不支持细粒度的写操作
2.不支持增量迭代计算(计算的时候只计算一部分数据)

你可能感兴趣的:(spark RDD的内部数据结构及不足)