基于spark的流式数据处理—DStream概述

本文介绍spark streaming的DStream用法:

  1. Spark Streaming工作机制
  2. Spark Streaming程序的基本步骤
  3. 创建StreamingContext对象

Spark Streaming工作机制

基于spark的流式数据处理—DStream概述_第1张图片

  1. 在Spark Streaming中,会有一个组件Receiver,作为一个长期运行的task跑在一个Executor上;
  2. 每个Receiver都会负责一个input DStream(比如从文件中读取数据的文件流,比如套接字流,或者从Kafka中读取的一个输入流等等);
  3. Spark Streaming通过input DStream与外部数据源进行连接,读取相关数据。

Spark Streaming程序编写的基本步骤

  1. 通过创建DStream来定义输入源(socket、文件流、kafka等等);
  2. 通过对DStream应用转换操作和输出操作来定义流计算;
  3. 用streamingContext.start()来开始接收数据和处理流程;
  4. 通过streamingContext.awaitTermination()方法来等待处理结束(手动结束或因为错误而结束);
  5. 可以通过streamingContext.stop()来手动结束流计算进程;

你可能感兴趣的:(Spark/Hadoop)