Spark Streaming之DStream的基本工作原理

目录

 

一:Spark Streaming 的含义

二:DStream 的含义

三:相关中间件的了解


一:Spark Streaming 的含义

图片

Spark Streaming之DStream的基本工作原理_第1张图片
Spark Engine:英 ['endʒɪn]  n. 引擎,发动机;机车,火车头;工具  


二:DStream 的含义


DStream,英文全称为Discretized Stream,中文翻译为“离散流”,它代表了一个持续不断的数据流
DStream中的每个RDD都包含了一个时间段内的数据
底层的RDD的transformation(map、reduce、join、window)操作,其实,还是由Spark Core的计算引擎来实现的

DStream进行算子计算的流程图:

Spark Streaming之DStream的基本工作原理_第2张图片
三:相关中间件的了解


消息中间件:
Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket
 
Flume:
英 [fluːm] n. 水道;笕槽;引水槽    
Flume是一个分布式、一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
Flume的灵魂(Agent)就是采集(source)、聚合(channel)、转移(sink)。

Twitter:实时舆情分析

ZeroMQ:ØMQ是一个消息系统,或者如果你愿意“面向消息中间件”。它用于各种场景,比如金融服务、嵌入式系统、学术研究及航天航空。

Kinesis:Kinesis 是 AWS 的一项用于收集实时流数据的云服务,类似于 Kafka。Kinesis 收集到的数据可以用于多个方面,例如存到 S3,发到 EMR 作进一步数据分析等等

dashboard:商业智能仪表盘(business intelligence dashboard,BI dashboard)的简称 
它是一般商业智
能都拥有的实现数据可视化的模块,是向企业展示度量信息和关键业务指标(KPI)现状的数据虚拟化工具.BI的基础就是OLAP了,dashboard也必须基于OLAP技术拥有图形上的数据分析功能

RPC框架
指远程过程调用
情景:
两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数/方法
由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据
目的:RPC就是要像调用本地的函数一样去调远程函数

你可能感兴趣的:(#,Spark,Streaming,Spark)