从零到一spark进阶之路(一)
RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念。
最重要的记住,RRD是不可变的,也就是说,已有的RDD不能被修改或者更新,但可以从已有的RDD转化成一个新的RDD.
上面的特性解读:
RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。
下面我们来列举以下RDD的基本特性:
1)创建:只能通过转换 ( transformation ,如map/filter/groupBy/join 等,区别于动作 action) 从两种数据源中创建 RDD 1 )稳定存储中的数据; 2 )其他 RDD。
2)只读:状态不可变,不能修改。
3)分区:支持使 RDD 中的元素根据那个 key 来分区 ( partitioning ) ,保存到多个结点上。还原时只会重新计算丢失分区的数据,而不会影响整个系统。
4)路径:在 RDD 中叫世族或血统 ( lineage ) ,即 RDD 有充足的信息关于它是如何从其他 RDD 产生而来的。
5)持久化:支持将会被重用的 RDD 缓存 ( 如 in-memory 或溢出到磁盘 )。
6)延迟计算: Spark 也会延迟计算 RDD ,使其能够将转换管道化 (pipeline transformation)。
7)操作:丰富的转换(transformation)和动作 ( action ) , count/reduce/collect/save 等。
执行了多少次transformation操作,RDD都不会真正执行运算(记录lineage),只有当action操作被执行时,运算才会触发。
1)RDD只能从持久存储或通过Transformations操作产生,相比于分布式共享内存(DSM)可以更高效实现容错,对于丢失部分数据分区只需根据它的lineage就可重新计算出来,而不需要做特定的Checkpoint。
2)RDD的不变性,可以实现类Hadoop MapReduce的推测式执行。
3)RDD的数据分区特性,可以通过数据的本地性来提高性能,这不Hadoop MapReduce是一样的。
4)RDD都是可序列化的,在内存不足时可自动降级为磁盘存储,把RDD存储于磁盘上,这时性能会有大的下降但不会差于现在的MapReduce。
5)批量操作:任务能够根据数据本地性 (data locality) 被分配,从而提高性能。
通过RDD的内部属性,用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。
1)分区列表:通过分区列表可以找到一个RDD中包含的所有分区及其所在地址。
2)计算每个分片的函数:通过函数可以对每个数据块进行RDD需要进行的用户自定义函数运算。
3)对父RDD的依赖列表,依赖还具体分为宽依赖和窄依赖,但并不是所有的RDD都有依赖。
4)可选:key-value型的RDD是根据哈希来分区的,类似于mapreduce当中的Paritioner接口,控制key分到哪个reduce。
5)可选:每一个分片的优先计算位置(preferred locations),比如HDFS的block的所在位置应该是优先计算的位置。(存储的是一个表,可以将处理的分区“本地化”)
RDD的转化操作是返回新RDD的操作, 常用转化操作总结如下:
表1: 对一个数据为{1,2,3,3}的RDD进行基本的转化操作
函数名 | 目的 | 示例 | 结果 |
---|---|---|---|
map() | 将函数应用于RDD中每个元素, 将返回值构成新的RDD | rdd.map(x=>x+1) | {2,3,4,5} |
flatMap() | 将函数应用于RDD中的每个元素, 将返回的迭代器的所有内容构成新的RDD, 常用来切分单词 | rdd.flatMap(x=>x.to(2)) | {1,2,2} |
filter() | 返回一个通过传入给filter()的函数的元素组成的RDD | rdd.filter(x=> x>2) | {3,3} |
distinct() | 去重 | rdd.distinct() | {1,2,3} |
sample(withReplacement, fraction, [seed]) | 对RDD采样, 以及是否替换 | rdd.sample(false, 0.5) | 非确定的 |
表2: 对数据分别为{1,2,3}和{2,3,4}RDD进行针对2个RDD的转化操作
函数名 | 目的 | 示例 | 结果 |
---|---|---|---|
redcue() | 并行整合RDD中的所有元素 | rdd.reduce((x, y) => x+y) | 9 |
collect() | 返回RDD中的所有元素 | rdd.collect() | {1,2,3,4} |
count() | 求RDD中的元素个数 | rdd.count() | 4 |
countByValue() | 各元素在RDD中出现的次数 | rdd.countByValue() | {1,1}, {2, 1}, {3,2} |
take(n) | 从RDD中返回n个元素 | rdd.take(2) | {1,2} |
top(n) | 从RDD中返回前n个元素 | rdd.top(3) | {3,3,2} |
foreach(func) | 对RDD中的每个元素使用给定的函数 | rdd.foreach(print) | 1,2,3,3 |
RDD的行动操作会把最终求得的结果返回驱动器程序, 或者写入外部存储系统中。
表3: 对一个数据为{1,2,3,3}的RDD进行基本RDD的行动操作
函数名 | 目的 | 示例 | 结果 |
---|---|---|---|
redcue() | 并行整合RDD中的所有元素 | rdd.reduce((x, y) => x+y) | 9 |
collect() | 返回RDD中的所有元素 | rdd.collect() | {1,2,3,4} |
count() | 求RDD中的元素个数 | rdd.count() | 4 |
countByValue() | 各元素在RDD中出现的次数 | rdd.countByValue() | {1,1}, {2, 1}, {3,2} |
take(n) | 从RDD中返回n个元素 | rdd.take(2) | {1,2} |
top(n) | 从RDD中返回前n个元素 | rdd.top(3) | {3,3,2} |
foreach(func) | 对RDD中的每个元素使用给定的函数 | rdd.foreach(print) | 1,2,3,3 |