Apache Flink之架构概述和环境(章节一)

作者:jiangzz 电话:15652034180 微信:jiangzz_wx 微信公众账号:jiangzz_wy

背景介绍

继Spark之后第三代内存计算框架Flink应运而生,Flink作为第三代计算框架Flink吸取了二代大数据Spark计算的设计的精华,依然采用DAG模型做任务拆分,但是Spark在流处理领域上因为微观批处理实时性不高甚至在性能上还不能和一代流处理框架Storm匹敌。因此第三代计算引擎Flink诞生了,主要原因是Flink是一个纯流式计算引擎,而类似于Spark这种微批的引擎,只是Flink流式引擎的一个特例。在这一点上Flink的设计思路恰恰和Spark的实现相反。
如下图所示,Spark的模块和架构栈是基于RDD批处理实现的核心计算引擎,然后是在批处理之上实现了 DStream (微观批处理),所以导致了Spark Streaming在流处理的领域避免不了批处理延迟较高的诟病。
Apache Flink之架构概述和环境(章节一)_第1张图片
Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。因此可以看出针对有界数据的计算其实本质就是批处理,对于无界数据就是Flink中的流处理。所以对于Flink而言在实现上是站在流处理的概念上实现批处理,但是Spark计算却是站在批处理的视角上实现流处理。

你可能感兴趣的:(Flink实时计算,大数据处理分析专栏)