RDD的特点

RDD(Resilient Distributed Datasets)  ,弹性分布式数据集,是一个抽象

  1. 一些列分区,分区有编号,有顺序
  2. 每一个切片都会有一个函数作业在上面用于对数据进行处理
  3. RDD和RDD之间存在依赖关系
  4. 如果是K  V 类型的RDD,会有一个分区器,默认是hash-partitioned
  5. 如果是从HDFS中读取数据,会得到数据的最优位置(向Namenode请求元数据)。

你可能感兴趣的:(Spark学习笔记,Spark,RDD,RDD特点)