Spark核心数据模型-RDD

1:可以抽象地理解为一个大数组(Array)。这个数组是分布在集群上的,逻辑上RDD的每个分区是一个Partiton

2: 4种创建方式;2种操作算子

3:cache()函数缓存中间数据

4:本质上,meta-data,存储block、node等的映射关系

5:从hdfs等外部文件创建RDD时,可使用hdfs分区策略,也可重分区

    5.1 hash分区:数据项key值取hash值,hash值相同的元素同一分区

    5.2 range分区:将属于同一数据范围的元素放入同一分区

6. 主要算子及功能 (输入、转换、输出)

你可能感兴趣的:(Spark核心数据模型-RDD)