Spark常用算子总结

Spark算子的官方文档：http://spark.apache.org/docs/latest/rdd-programming-guide.html
官方文档上列举共有32种常见算子，包括Transformation的20种操作和Action的12种操作。

从大方向来说，Spark 算子大致可以分为以下两类:

1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。
Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，会真正触发运算需要等到有 Action 操作的时候才。
2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。
Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统。

Transformation：

1.map

map的输入变换函数应用于RDD中所有元素，而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize（1 to 10， 3），map函数执行10次，而mapPartitions函数执行3次。

image.png

2.filter（function）

过滤操作，满足filter内function函数为true的RDD内所有元素组成一个新的数据集。如：filter（a == 1）。

image.png

3.flatMap（function）

map是对RDD中元素逐一进行函数操作映射为另外一个RDD，而flatMap操作是将函数应用于RDD之中的每一个元素，将返回的迭代器的所有内容构成新的RDD。而flatMap操作是将函数应用于RDD中每一个元素，将返回的迭代器的所有内容构成RDD。
flatMap与map区别在于map为“映射”，而flatMap“先映射，后扁平化”，map对每一次（func）都产生一个元素，返回一个对象，而flatMap多一步就是将所有对象合并为一个对象。

image.png

4.mapPartitions（function）

区别于foreachPartition（属于Action，且无返回值），而mapPartitions可获取返回值。与map的区别前面已经提到过了，但由于单独运行于RDD的每个分区上（block），所以在一个类型为T的RDD上运行时，（function）必须是Iterator => Iterator类型的方法（入参）。

image.png

5.mapPartitionsWithIndex（function）

与mapPartitions类似，但需要提供一个表示分区索引值的整型值作为参数，因此function必须是（int， Iterator）=>Iterator类型的。

image.png

6.sample（withReplacement， fraction， seed）

采样操作，用于从样本中取出部分数据。withReplacement是否放回，fraction采样比例，seed用于指定的随机数生成器的种子。（是否放回抽样分true和false，fraction取样比例为(0, 1]。seed种子为整型实数。）

image.png

7.union（otherDataSet）

对于源数据集和其他数据集求并集，不去重。

image.png

8.intersection（otherDataSet）

对于源数据集和其他数据集求交集，并去重，且无序返回。

image.png

9.distinct（[numTasks]）

返回一个在源数据集去重之后的新数据集，即去重，并局部无序而整体有序返回。（详细介绍见https://blog.csdn.net/Fortuna_i/article/details/81506936）
注：之后groupByKey、reduceByKey、aggregateByKey、sortByKey、join、cogroup等Transformation操作均包含[numTasks]任务数这个参数，参考上一行链接理解。

image.png

注：之后要用到很多对pairRDD进行的操作，在此添加pairRDD简易创建过程。

image.png

10.groupByKey([numTasks])

在一个PairRDD或（k,v）RDD上调用，返回一个（k,Iterable）。主要作用是将相同的所有的键值对分组到一个集合序列当中，其顺序是不确定的。groupByKey是把所有的键值对集合都加载到内存中存储计算，若一个键对应值太多，则易导致内存溢出。

在此，用之前求并集的union方法，将pair1，pair2变为有相同键值的pair3，而后进行groupByKey

image.png

11.reduceByKey（function，[numTasks]）

与groupByKey类似，却有不同。如(a,1), (a,2), (b,1), (b,2)。groupByKey产生中间结果为( (a,1), (a,2) ), ( (b,1), (b,2) )。而reduceByKey为(a,3), (b,3)。
reduceByKey主要作用是聚合，groupByKey主要作用是分组。（function对于key值来进行聚合）

image.png

12.aggregateByKey（zeroValue）（seqOp， combOp， [numTasks]）

类似reduceByKey，对pairRDD中想用的key值进行聚合操作，使用初始值（seqOp中使用，而combOpenCL中未使用）对应返回值为pairRDD，而区于aggregate（返回值为非RDD）

image.png

13.sortByKey（[ascending], [numTasks]）

同样是基于pairRDD的，根据key值来进行排序。ascending升序，默认为true，即升序；numTasks

image.png

14.join（otherDataSet，[numTasks]）

加入一个RDD，在一个（k，v）和（k，w）类型的dataSet上调用，返回一个（k，（v，w））的pair dataSet。

image.png

15.cogroup（otherDataSet，[numTasks]）

合并两个RDD，生成一个新的RDD。实例中包含两个Iterable值，第一个表示RDD1中相同值，第二个表示RDD2中相同值（key值），这个操作需要通过partitioner进行重新分区，因此需要执行一次shuffle操作。（若两个RDD在此之前进行过shuffle，则不需要）

image.png

16.cartesian（otherDataSet）

求笛卡尔乘积。该操作不会执行shuffle操作。

image.png

17.pipe（command，[envVars]）

通过一个shell命令来对RDD各分区进行“管道化”。通过pipe变换将一些shell命令用于Spark中生成的新RDD，如：

image.png

18.coalesce（numPartitions）

重新分区，减少RDD中分区的数量到numPartitions。

image.png

19.repartition（numPartitions）

repartition是coalesce接口中shuffle为true的简易实现，即Reshuffle RDD并随机分区，使各分区数据量尽可能平衡。若分区之后分区数远大于原分区数，则需要shuffle。

image.png

20.repartitionAndSortWithinPartitions（partitioner）

该方法根据partitioner对RDD进行分区，并且在每个结果分区中按key进行排序。

Action：

1.reduce（function）

reduce将RDD中元素两两传递给输入函数，同时产生一个新值，新值与RDD中下一个元素再被传递给输入函数，直到最后只有一个值为止。

image.png

2.collect（）

将一个RDD以一个Array数组形式返回其中的所有元素。（具体内容参见：https://blog.csdn.net/Fortuna_i/article/details/80851775）

image.png

3.count（）

返回数据集中元素个数，默认Long类型。

image.png

4.first（）

返回数据集的第一个元素（类似于take(1)）

image.png

5.takeSample（withReplacement， num， [seed]）

对于一个数据集进行随机抽样，返回一个包含num个随机抽样元素的数组，withReplacement表示是否有放回抽样，参数seed指定生成随机数的种子。
该方法仅在预期结果数组很小的情况下使用，因为所有数据都被加载到driver端的内存中。

image.png

6.take（n）

返回一个包含数据集前n个元素的数组（从0下标到n-1下标的元素），不排序。

image.png

7.takeOrdered（n，[ordering]）

返回RDD中前n个元素，并按默认顺序排序（升序）或者按自定义比较器顺序排序。

image.png

8.saveAsTextFile（path）

将dataSet中元素以文本文件的形式写入本地文件系统或者HDFS等。Spark将对每个元素调用toString方法，将数据元素转换为文本文件中的一行记录。
若将文件保存到本地文件系统，那么只会保存在executor所在机器的本地目录。

image.png

9.saveAsSequenceFile（path）（Java and Scala）

将dataSet中元素以Hadoop SequenceFile的形式写入本地文件系统或者HDFS等。（对pairRDD操作）

image.png

10.saveAsObjectFile（path）（Java and Scala）

将数据集中元素以ObjectFile形式写入本地文件系统或者HDFS等。

image.png

11.countByKey（）

用于统计RDD[K,V]中每个K的数量，返回具有每个key的计数的（k，int）pairs的hashMap。

image.png

12.foreach（function）

对数据集中每一个元素运行函数function。

image.png

补充：Spark2.3及之后的官方文档中将原[numTasks]任务数参数改为了[numPartitions]分区数。
转载自：https://blog.csdn.net/Fortuna_i/article/details/81170565

Spark常用算子总结

从大方向来说，Spark 算子大致可以分为以下两类:

Transformation：

1.map

2.filter（function）

3.flatMap（function）

4.mapPartitions（function）

5.mapPartitionsWithIndex（function）

6.sample（withReplacement， fraction， seed）

7.union（otherDataSet）

8.intersection（otherDataSet）

9.distinct（[numTasks]）

10.groupByKey([numTasks])

11.reduceByKey（function，[numTasks]）

12.aggregateByKey（zeroValue）（seqOp， combOp， [numTasks]）

13.sortByKey（[ascending], [numTasks]）

14.join（otherDataSet，[numTasks]）

15.cogroup（otherDataSet，[numTasks]）

16.cartesian（otherDataSet）

17.pipe（command，[envVars]）

18.coalesce（numPartitions）

19.repartition（numPartitions）

20.repartitionAndSortWithinPartitions（partitioner）

Action：

1.reduce（function）

2.collect（）

3.count（）

4.first（）

5.takeSample（withReplacement， num， [seed]）

6.take（n）

7.takeOrdered（n，[ordering]）

8.saveAsTextFile（path）

9.saveAsSequenceFile（path）（Java and Scala）

10.saveAsObjectFile（path）（Java and Scala）

11.countByKey（）

12.foreach（function）

你可能感兴趣的:(Spark常用算子总结)