RDD特征

文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

全称:Resilient Distributed Datasets

which is a fault-tolerant collection of elements that can be operated on in parallel

一种编程模型的抽象,是一种具有容错性基于内存的集群计算抽象方法。

每个RDD具有5个特征:

    1 分区(partition):有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行并行计算,是数据集的原子组成部分。

    2 函数(compute): 计算每个分片,返回一个可遍历的结果,用于说明在父RDD上执行何种计算。

    3 依赖(dependency): 计算每个RDD对父RDD的依赖列表,源RDD没有依赖,通过依赖关系描述血统(lineage)。

    4 优先位置(可选):每个分片的优先计算位置

    5 分区策略(可选)描述分区模式和数据存储位置

每个Transformation操作都会产生一种RDD:


你可能感兴趣的:(RDD特征)