第82讲 Spark Streaming第一讲 Spark Streaming 工作原理

第82讲 Spark Streaming第一讲 Spark Streaming 工作原理

1.数据流来源
数据流来源于不同的设备,应用程序、监控设备 、工业设备、电商网站、社交网络、搜索引擎、金融领域、安全防护监控、垃圾邮件等。

2.从大数据的角度看,突然发现很少不是流处理,数据产生时的价值是最大的,在以后,一个星期前的数据,可能没有任何价值。

3.spark Streaming与storm选择
(1)如果需要毫秒级的响应,选择storm,其他所有的方面选择spark Streaming。
(2)Storm是一条一条处理的。spark Streaming是按照时间段进行处理的,与内容无关。
(3)Spark Streaming也是可以一条一条进行处理,需要一个机制,一般是利用kafka。数据来自不同的终端,推送给Kafka,kafka是最好的消息中间件,是一个集群,可以处理任意规模的数据,spark Streaming会从kafka中获取数据,进行处理。

4.kafka简介
(1)kafka是生产者和消费者模式,kafka既有广播模式,又有队列模式,Zero-copy导致kafka效率更高。
(2)需要Kafka的原因:做缓存(Cache)+不论数据来源统一的接口(interface)+数据的持久化(persistence)+内核中磁盘交换(zero-copy)
(3)kafka默认持久化一个星期数据

5.Spark Streaming是一个计算框架,可以根据需要来从kafka中获取数据,FrameWork意味着其对数据不进行计算,抓过来先分析一下,再运行,到底是怎么运行的?

6.Spark Streaming运行原理初探
Spark Streaming不是基于RDD编程的,但是FrameWork只认RDD,Job是由FrameWork定时产生的,而不是由程序代码产生的。Job的产生本身是RDD的action,也就是说spark Streaming 框架每隔一秒钟产生一个作业,写业务逻辑的时候是考虑一秒钟的时间的RDD。写的代码是作业的模板,一秒钟产生一个作业,时间一运动就会模板实例化。RDD模板是DStream,RDD之间会有依赖,Dstream也会有依赖,回构成DAG图,也就是job的DAG图

7.Spark Streaming根据流式处理在RDD的基础上做一层封装:DStream
第82讲 Spark Streaming第一讲 Spark Streaming 工作原理_第1张图片

你可能感兴趣的:(spark)