[Spark、hadoop]spark Streaming的核心DStream

目录

Spark Streaming的核心是DStream

一、DStream简介

二.DStream编程模型

三.DStream转换操作


Spark Streaming的核心是DStream

一、DStream简介

1.Spark Streaming提供了一个高级抽象的流,即DStream(离散流)。

2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。

二.DStream编程模型

[Spark、hadoop]spark Streaming的核心DStream_第1张图片

三.DStream转换操作

[Spark、hadoop]spark Streaming的核心DStream_第2张图片

transform()

1.在3个节点启动zookeeper集群服务

$ zkServer.sh start

[Spark、hadoop]spark Streaming的核心DStream_第3张图片

2.启动kafka(3个节点都要)

$ /opt/module/kafka/bin/kafka-server-start.sh  /opt/module/kafka/config/server.properties

[Spark、hadoop]spark Streaming的核心DStream_第4张图片

3.克隆会话,jps查看是否有Kafka(3个节点)

[Spark、hadoop]spark Streaming的核心DStream_第5张图片

4.进入/etc/resolv.conf加入如下内

vi resolv.conf

2c4bd758c63a467a953c83136399492a.png

Nameserver 114.114.114.114

[Spark、hadoop]spark Streaming的核心DStream_第6张图片

5.下载nc

$ yum install nc

[Spark、hadoop]spark Streaming的核心DStream_第7张图片

6.启动服务端且监听Socket服务,并输入I am learning spark streaming now

$ nc -lk 9999

I am learning spark streaming now(回车)

7cf1e17894a845d6b14a2dd40b826abe.png

7.创建Maven项目, 打开右上角的Fileànewàproject

[Spark、hadoop]spark Streaming的核心DStream_第8张图片

8.选择mavenànext

[Spark、hadoop]spark Streaming的核心DStream_第9张图片

9.填写groupld、artifctldànext

[Spark、hadoop]spark Streaming的核心DStream_第10张图片

10.添加依赖



    

        org.scala-lang

        scala-library

        2.11.8

    

    

        org.apache.spark

        spark-core_2.11

        2.0.2

    

    

    

        org.apache.spark

        spark-streaming_2.11

        2.0.2

    

    

        mysql

        mysql-connector-java

        5.1.38

    

    

    

        org.apache.spark

        spark-streaming-kafka-0-8_2.11

        2.0.2

    







    src/main/scala

    src/test/scala

[Spark、hadoop]spark Streaming的核心DStream_第11张图片

11 在main目录下创建scala文件,右击ànewàdirectory,命名为Scala

[Spark、hadoop]spark Streaming的核心DStream_第12张图片

[Spark、hadoop]spark Streaming的核心DStream_第13张图片

12 右击Scala文件,选择【Mark Directory as】à【sources root】表示将文件夹标记为资源文件夹类型(存放项目源码文件)

[Spark、hadoop]spark Streaming的核心DStream_第14张图片

13 同样在test目录下创建scala文件,右击ànewàdirectory,命名为Scala

[Spark、hadoop]spark Streaming的核心DStream_第15张图片

 [Spark、hadoop]spark Streaming的核心DStream_第16张图片

14 右击Scala文件,选择【Mark Directory as】à【test sources root】表示将文件夹标记为测试资源文件夹类型(存放开发中测试的源码文件)

[Spark、hadoop]spark Streaming的核心DStream_第17张图片

15 右击main下的Scala文件先创建一个package并命名为cn.itcast 

[Spark、hadoop]spark Streaming的核心DStream_第18张图片

 [Spark、hadoop]spark Streaming的核心DStream_第19张图片

16 编写TransformTest.Scala

注意红框内容!!!

   [Spark、hadoop]spark Streaming的核心DStream_第20张图片

17 运行程序,可以看到控制台输出结果

[Spark、hadoop]spark Streaming的核心DStream_第21张图片

UpdateStateKey()

1 编写UpdateStateKeyTest.scala

注意红框内容!!!

[Spark、hadoop]spark Streaming的核心DStream_第22张图片

2 运行程序并在master 9999 端口不断输入单词,观察到控制台输出内容

$ nc -lk 9999

Hadoop spark itcast(回车)

Spark itcast

[Spark、hadoop]spark Streaming的核心DStream_第23张图片

你可能感兴趣的:(IDEA,hadoop,spark,java,kafka,开发语言,hadoop)