理解Spark的RDD算子

什么是Spark的算子呢?说简单一些就是Spark内部封装了一些处理RDD数据的函数方法。

 

其中算子又分为两部分:

 

Transformation 与 Actions

  • Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作

  • Action(执行):触发Spark作业的运行,真正触发转换算子的计算。

 

 

理解Spark的RDD算子_第1张图片

 

Transformation

Meaning

map(func)

返回通过函数func传递源的每个元素形成的新分布式数据集。

filter(func)

返回通过选择funcreturns为true的源元素形成的新数据集。

flatMap(func)

与map类似,但每个输入项可以映射到0个或更多输出项,将所有的数据返回到一个集合(因此func应该返回

你可能感兴趣的:(Scala,大数据挖掘与大数据应用案例)