Spark快速入门-2-Spark的编程模型

准备

  • 2017-12-19-Hadoop2.0架构及HA集群配置(1)

  • 2017-12-24-Hadoop2.0架构及HA集群配置(2)

  • 2017-12-25-Spark集群搭建

  • 2017-12-29-Hadoop和Spark的异同

  • 2017-12-28-Spark-HelloWorld(Spark开发环境搭建)

相关概念

  • 2018-01-15-Spark快速入门-1-Spark-on-Yarn-Job的执行流程简介

Spark的编程模型

Spark快速入门-2-Spark的编程模型_第1张图片
Spark的编程模型
  • 示例
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author Yezhiwei
  * @date 17/12/27
  */

object WordCount {
  def main (args: Array[String]){
  
    val conf = new SparkConf().setAppName("WordCount")
    val sc = new SparkContext(conf)

    val inputRDD = sc.textFile("README.md")
    val pythonLinesRDD = inputRDD.filter(line => line.contains("Python"))
    val wordsRDD = pythonLinesRDD.flatMap(line => line.split(" "))
    val countsRDD = wordsRDD.map(word => (word, 1)).reduceByKey(_ + _)

    countsRDD.saveAsTextFile("outputFile")
    sc.stop()
  }
}
  • 解释

1.创建应用程序 SparkContext

2.创建RDD,有两种方式,方式一:输入算子,即读取外部存储创建RDD,Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。方式二:从集合创建RDD

3.Transformation 算子,这种变换并不触发提交作业,完成作业中间过程处理。也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。

4.Action 算子,这类算子会触发 SparkContext 提交 Job 作业。并将数据输出 Spark系统。

5.保存结果

6.关闭应用程序


下一篇总结Spark算子,如需要了解Scala基础,请点左下角【阅读原文】。如需要及时收到最新内容,或者有相关问题探讨,请扫码关注“码上攻城”的微信公众号,在公众号里留言或者回复,谢谢~

Spark快速入门-2-Spark的编程模型_第2张图片
码上攻城

你可能感兴趣的:(Spark快速入门-2-Spark的编程模型)