什么是RDD

Resilient Distributed Dataset ==> 弹性分布式数据集

Resilient ==> 指的是RDD的分区数量是可以进行弹性控制

Distributed ==> 指的是RDD的分区分布式的存在于各个执行(Executor)节点上task运行是分布式的

Dataset ==> RDD中描述的是一个数据集,类似集合Array大的数据集合

RDD中的数据是不可变、而且是分区存在的

RDD的五大特性描述

  1. 有一系列的切片
  2. 都有个compute函数作用于每个分区
  3. 每个RDD(除了初始的)都有依赖
  4. 可选,对于pair类型(key/value),可以自定义分区
  5. 可选,每个RDD的分区都有最优执行位置(类似于hdfs的就近原则)

备注:RDD中是没有存储数据的,存储的是数据存储位置信息, 只有当执行compute方法的时候,才会从数据源读取数据并返回这个rdd中的数据记录

你可能感兴趣的:(什么是RDD)