spark快速大数据分析之学习记录(六)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

RDD常用函数【Python】

一、转化操作函数

1.filter:对RDD中每个元素进行操作,过滤出符合条件的元素,返回一个新RDD

2.map:对RDD中每个元素进行操作,返回一个新RDD,元素个数相同

 spark快速大数据分析之学习记录(六)_第1张图片

3.flatMap:对RDD中每个元素进行操作,然后将得到的数据集“拍扁”,返回一个新的RDD,元素个数>=原来的RDD,对比如下图

4.union:求RDD之间的并集;distinct:RDD元素去重;intersection:RDD之间的交集;subtract:RDD之间的差集;cartesian:笛卡尔积

二、行动操作函数

1.collect:返回RDD中的所有元素

2.count:返回RDD中元素个数;mean:求RDD的平均值;variance:求RDD的方差

3.countByValue:统计RDD中每个元素出现的个数,返回键值对

4.take:返回RDD前几个元素; top:返回最大的前几个元素

5.takeOrdered:按照元素的排序默认按升序返回前几个元素

或指定排序方式:

6.takeSample:RDD随机抽样,是否替代、抽几个、种子

spark快速大数据分析之学习记录(六)_第2张图片

7.reduce:对RDD中的元素进行并行整合(如累加/累乘)

8.fold:同reduce,需设定初始值(累加时初始值为0 ,累乘时初始值为1)

spark快速大数据分析之学习记录(六)_第3张图片

9.aggregate:返回不同类型的函数

(详情参考https://blog.csdn.net/u011011025/article/details/76206335)

10.foreach:对RDD中每个元素应用函数

spark快速大数据分析之学习记录(六)_第4张图片

 

 

你可能感兴趣的:(Spark)