Spark算子--Scala版本(头歌)

第1关 转换算子之map和distinct算子

Spark算子--Scala版本(头歌)_第1张图片

Spark算子--Scala版本(头歌)_第2张图片 

 代码如下:

 

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

 

object EduCoder1 {

    def main(args: Array[String]): Unit = {

    val conf =new SparkConf().setAppName("educoder1").setMaster("local")

    val sc=new SparkContext(conf)

    val rdd = sc.parallelize(List("dog","an","cat","an","cat"))

   

    

    /********** Begin **********/

    //第一步:通过获取rdd中每个元素的长度创建新的rdd1

val rdd1=rdd.map(x=>x.length)   

    //第二步:通过zip把rdd1和rdd组合创建rdd2

    val rdd2=rdd.zip(rdd1)

    //第三步:去重

val rdd3=rdd2.distinct()    

    //第四步:输出结果

rdd3.foreach(println)   

    

    

    /********** End **********/

  

    sc.stop()

  }

 

}

第2关 转换算子之flatMap和filter算子

Spark算子--Scala版本(头歌)_第3张图片

你可能感兴趣的:(scala,spark,大数据)