初识flink

说明:本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习CSDN官网课程:

Flink大数据项目实战:http://t.cn/ExrHPl9

 

简介

Apache Flink是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。

              初识flink_第1张图片

上图大致可以分为三块内容:左边为数据输入、右边为数据输出、中间为Flink数据处理。

Flink支持消息队列的Events(支持实时的事件)的输入,上游源源不断产生数据放入消息队列,Flink不断消费、处理消息队列中的数据,处理完成之后数据写入下游系统,这个过程是不断持续的进行。

 

数据源:

1.Clicks:即点击流,比如打开搜狐网站,搜狐网站页面上埋有很多数据采集点或者探针,当用户点击搜狐页面的时候,它会采集用户点击行为的详细信息,这些用户的点击行为产生的数据流我们称为点击流。初识flink_第2张图片

 

2.Logs:比如web应用运行过程中产生的错误日志信息,源源不断发送到消息队列中,后续Flink处理为运维部门提供监控依据。

 

3.IOT:即物联网,英文全称为Internet of things。物联网的终端设备,比如华为手环、小米手环,源源不断的产生数据写入消息队列,后续Flink处理提供健康报告。

 

4.Transactions:即交易数据。比如各种电商平台用户下单,这个数据源源不断写入消息队列,

后续Flink处理为用户提供购买相关实时服务。

 

数据输入系统:

Flink既支持实时(Real-time)流处理,又支持批处理。实时流消息系统,比如Kafka。批处理系统有很多,DataBase(比如传统MySQL、Oracle数据库),KV-Store(比如HBase、MongoDB数据库),File System(比如本地文件系统、分布式文件系统HDFS)。

 

Flink数据处理:

Flink在数据处理过程中,资源管理调度可以使用K8s(Kubernetes 简称K8s,是Google开源的一个容器编排引擎)、YARN、Mesos,中间数据存储可以使用HDFS、S3、NFS等,Flink详细处理过程后续章节详细讲解。

 

 

数据输出:

Flink可以将处理后的数据输出下游的应用(Application),也可以将处理过后的数据写入消息队列(比如Kafka),还可以将处理后的输入写入Database、File System和KV-Store。

 

 

1.2Flink的前世今生

        初识flink_第3张图片

Hadoop在2005年左右诞生2009年刚刚崭露头角,这之后逐步受到各大公司的欢迎。Flink也早在2009年已经出现,此后一直默默无闻,但是直到在 2015 年突然出现在大数据舞台,然后似乎在一夜之间从一个无人所知的系统迅速转变为人人皆知的流式处理引擎。可以说Apache Flink起了个大早,赶了个晚集,主要原因在于很多流式计算框架往Hadoop迁移的过程中,发现当前流行的很多框架对流式处理对不是太好,即使是Storm,这个时候大家发现Apache Flink对流式处理支持的比较好,并逐步进入大家的视野,越来越受欢迎。

 

Flink在发展过程的关键时刻:

  1. 诞生于2009年,原来叫StratoSphere,是柏林工业大学的一个研究性项目,早期专注于批计算。
  2. 2014年孵化出Flink项目并捐给了Apache。
  3. 2015年开始引起大家注意,出现在大数据舞台。
  4. 2016年在阿里得到大规模应用。

1.3Flink的诞生

        初识flink_第4张图片

Flink诞生于欧洲的一个大数据研究项目,原名 StratoSphere。该项目是柏林工业大学的一个研究性项目,早期专注于批计算。2014 年,StratoSphere 项目中的核心成员孵化出 Flink,并在同年将 Flink 捐赠 Apache,后来 Flink 顺利成为 Apache 的顶级大数据项目。同时 Flink 计算的主流方向被定位为流计算,即用流式计算来做所有大数据的计算工作,这就是 Flink 技术诞生的背景

            初识flink_第5张图片

 

你可能感兴趣的:(Hadoop,Spark,Storm)