2021年大数据Spark(三十四):Spark Streaming概述

Spark Streaming

2021年大数据Spark(三十四):Spark Streaming概述_第1张图片

 

在很多实时数据处理的场景中,都需要用到流式处理(Stream Process)框架,Spark也包含了两个完整的流式处理框架Spark StreamingStructured StreamingSpark 2.0出现),先阐述流式处理框架,之后介绍Spark Streaming框架使用。

 

Spark Streaming概述

在传统的数据处理过程中,我们往往先将数据存入数据库中,当需要的时候再去数据库中进行检索查询,将处理的结果返回给请求的用户;另外,MapReduce 这类大数据处理框架,更多应用在离线计算场景中。而对于一些实时性要求较高的场景,我们期望延迟在秒甚至毫秒级别,就需要引出一种新的数据计算结构——流式计算,对无边界的数据进行连续不断的处理、聚合和分析。

Streaming 应用场景

如下的场景需求, 仅仅通过传统的批处理/离线处理/离线计算/处理历史数据是无法完成的:

 1)、电商实时大屏:每年双十一时,淘宝和京东实时订单销售额和产品数量大屏展示,要求:

  • 数据量大,可能每秒钟上万甚至几十万订单量
  • 快速的处理,统计出不同维度销售订单额,以供前端大屏展示

2021年大数据Spark(三十四):Spark Streaming概述_第2张图片

 

 

 2)、商品推荐:京东和淘宝的商城在购物车、商品详情等地方都有商品推荐的模块,商品推荐的要求:

  • 快速的处理, 加入购物车以后就需要迅速的进行推荐
  • 数据量大
  • 需要使用一些推荐算法

2021年大数据Spark(三十四):Spark Streaming概述_第3张图片

 

 3)、工业大数据:现在的工场中, 设备是可以联网的, 汇报自己的运行状态, 在应用层可以针对这些数据来分析运行状况和稳健程度, 展示工件完成情况, 运行情况等,工业大数据的需求:

  • 快速响应, 及时预测问题
  • 数据是以事件的形式动态的产品和汇报
  • 因为是运行状态信息, 且一般都是几十上百台机器, 所以汇报的数据量很大

2021年大数据Spark(三十四):Spark Streaming概述_第4张图片

 

 

 4)、集群监控:一般的大型集群和平台, 都需要对其进行监控,监控的需求

  • 要针对各种数据库, 包括 MySQL, HBase 等进行监控
  • 要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等
  • 要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘 等
  • 工具的日志输出是非常多的, 往往一个用户的访问行为会带来几百条日志, 这些都要汇报, 所以数据量比较大
  • 要从这些日志中, 聚合系统运行状况

2021年大数据Spark(三十四):Spark Streaming概述_第5张图片

 

 

上述展示场景需要实时对数据进行分析处理,属于大数据中的实时流式数据处理

 

Streaming 计算模式

流式处理任务是大数据处理中很重要的一个分支,关于流式计算的框架也有很多,如比较出名的Storm流式处理框架,是由Nathan Marz等人于 2010 年最先开发,之后将Storm开源,成为 Apache 的顶级项目,Trident 对Storm进行了一个更高层次的抽象;另外由LinkedIn贡献给社区的 Samza 也是一种流处理解决方案,不过其构建严重依赖于另一个开源项目 Kafka。

Spark Streaming 构建在Spark的基础之上的实时流处理框架,随着Spark的发展,Spark Streaming和Structured Streaming也受到了越来越多的关注。

不同的流式处理框架有不同的特点,也适应不同的场景,主要有如下两种模式。

 模式一:原生流处理(Native)

所有输入记录会一条接一条地被处理,上面提到的 Storm 和 Flink都是采用这种方式;

绝对一次一条的模式

2021年大数据Spark(三十四):Spark Streaming概述_第6张图片

 

 模式二:微批处理(Batch)

将输入的数据以某一时间间隔 T,切分成多个微批量数据,然后对每个批量数据进行处理,Spark Streaming 和 StructuredStreaming采用的是这种方式;

比如间隔是1秒,就一秒钟处理一个批次

2021年大数据Spark(三十四):Spark Streaming概述_第7张图片

 

 

​​​​​​​Spark Streaming 计算思想

Spark Streaming是Spark生态系统当中一个重要的框架,它建立在Spark Core之上,下图也可以看出Sparking Streaming在Spark生态系统中地位。

2021年大数据Spark(三十四):Spark Streaming概述_第8张图片

 

官方定义Spark Streaming模块:

 

SparkStreaming是一个基于SparkCore之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点

2021年大数据Spark(三十四):Spark Streaming概述_第9张图片

 

对于Spark Streaming来说,将流式数据封装的数据结构:DStream(Discretized Stream,离散化数据流,连续不断的数据流),代表持续性的数据流和经过各种Spark算子操作后的结果数据流,其实就是将流式数据按照时间间隔BatchInterval划分为很多Batch批次,针对每个Batch批次数据当做RDD进行快速分析和处理。

SparkStreaming模块对流式数据处理,介于Batch批处理和RealTime实时处理之间处理数据方式。

2021年大数据Spark(三十四):Spark Streaming概述_第10张图片

 

你可能感兴趣的:(大数据,Spark,Streaming)