Flink基础01-flink简介

#概念
Flink: 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算

#应用场景:
为什么选择Flink
流数据更真实地反映了我们的生活方式
传统的数据架构是基于有限数据集的
低延迟、高吞吐、结果的准确性和良好的容错性

行业:
电商和市场营销:数据报表、广告投放、业务流程需要
物联网:传感器实时数据采集和显示、实时报警、交通运输业
电信业:基站流量调配
银行和金融业:实时结算和通知推送,实时检测异常行为

#对比传统数据处理架构
传统数据处理架构
事务处理
Flink基础01-flink简介_第1张图片
分析处理
将数据从业务数据库复制到数仓,再进行分析和查询
Flink基础01-flink简介_第2张图片
有状态的流式处理
Flink基础01-flink简介_第3张图片

#流处理的演变
lambda架构
用两套系统,同时保证低延迟和结果准确

Flink基础01-flink简介_第4张图片
Flink基础01-flink简介_第5张图片

#Flink的主要特点
事件驱动
Flink基础01-flink简介_第6张图片
基于流的世界观
在Flink的世界观中,一切都是由流组成的,离线数据时有界的流;
实时数据时一个没有界限的流:这就是所谓的有界流和无界流
Flink基础01-flink简介_第7张图片
分层API
越顶层越抽象,表达含义越简明,使用越方便
越底层越具体,表达能力越丰富,使用越灵活
Flink基础01-flink简介_第8张图片
Flink的其他特点
支持事件时间(event-time)和处理时间(processing-time)语义
精确一次(exactly-once)的状态一致性保证
低延迟,每秒处理数百万个事件,毫秒级延迟
与众多常用存储系统的连接
高可用,动态扩展,实现7*24小时全天候运行
Flink Vs Spark Streaming
流(Stream)和微批(micro-batching)
Flink基础01-flink简介_第9张图片
数据模型
spark采用RDD模型,spark streaming的DStream实际上也就是一组组小批数据的RDD的集合
flink基本数据模型是数据流,以及事件(event)序列
运行时架构
spark是批计算,将DAG划分为不同的stage,一个完成后才可以计算下一个
flink是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节点进行处理

附思维导图:
Flink基础01-flink简介_第10张图片

你可能感兴趣的:(#,Flink,flink)