Spark 创建RDD的几种方式

什么是RDD

RDD Resilient Distributed Dataset )叫做弹性分布式数据集,是 Spark 中最基本的 数据 处理模型 。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

RDD特点:

1、弹性

  • 存储的弹性:内存与磁盘的自动切换;
  • 容错的弹性:数据丢失可以自动恢复;
  • 计算的弹性:计算出错重试机制;
  • 分片的弹性:可根据需要重新分片;

你可能感兴趣的:(spark,Spark,创建RDD几种方式,Spark,创建RDD)