Flink在实时计算平台和实时数据仓库中的作用

声明:本系列博客为原创,最先发表在拉勾教育,其中一部分为免费阅读部分。被读者各种搬运至各大网站。所有其他的来源均为抄袭。

《2021年最新版大数据面试题全面开启更新》

 

   当前基于Hadoop的离线存储体系已经足够成熟,但是离线计算天然时效性不强,一般都是隔天级别的滞后,业务数据随着实践的推移,本身的价值会逐渐减少。越来越多的场景需要使用实时计算,这种背景下实时计算平台的需求应运而生。

架构选型

     首先在架构上,Flink采用经典的主从模式,DataFlow Grapy和Storm形成的Topology结构类似,Flink程序启动后,会根据用户的代码处理成Stream Grapy,然后优化成为JobGrapy,JobManager会根据JobGrapy生成ExecutionGrapy。ExecutionGrapy才是Flink真正能执行的数据结构,当很多个ExecutionGrapy分布在集群中,就会形成一张网状的拓扑结构。

     其次在容错方面,针对以前Spark Streaming任务,可以配置对应的checkpoint,也就是保存点(检查点)。当任务出现failover的时候,会从checkpoint重新加载,使得数据不丢失。但是这个过程会导致原来的数据重复使用,不能做到“只处理一次”的语义。Flink基于两阶段提交实现了端到端的一次处理语义。

     在任务的反压上,Flink没有使用任何复杂的机制来解决任务的反压问题,Flink在数据传输过程中使用了分布式阻塞队列。在一个阻塞队列中,当队列满了以后发送者会被天然阻塞住,这种阻塞功能相当于给这个阻塞队列提供了反压能力。

实时计算平台整体架构

     一般的实时计算平台的构成大都是一下几部分:

  • 实时数据收集层
    在实际业务中,大量的实时计算都是基于消息系统进行的数据收集和投递,这都离不开强大的消息中间件。业界使用最广的是Kafka,还有一些其他的比如RockettMQ等。Kafka因为高吞吐、低延迟的特性,特别适合大数据量、高QPS下的业务场景,而RocketMQ则在事务消息、一致性上有独特的优势。
  • 实时计算层
    Flink在计算层同时支持流式和批量分析应用,这就是我们所说的批流一体。Flink承担了数据的实时采集、实时计算和下游发送的角色。随着Blink的开源和一些其他实时产品的开源,支持可视化、SQL化的开发模式已经越来越普及。
  • 数据存储层
    实时数据存储层,存储层除了传统MySQL等存储引擎以外,还会根据场景数据的不同存储在Redis、HBase、OLAP中。OLAP的技术选型直接制约着数据存储层和数据服务层的能力。关于OLAP的技术选型,可以参考这里。
  • 数据服务层
    数据服务层会提供统一的对外查询、多维度的实时汇总,加上完善的租户和权限设计,能够支持多部门、多业务的数据需求,另外,基于数据服务层还会有数据的展示、大屏、指标可视化等。

实时计算平台实际应用

     美团在公开发表的文章中提到,目前美团实时计算平台的架构组成:最底层是实时数据收集层,使用Kafka进行数据收集,支撑了大量的实时计算和离线计算数据拉去任务。
     基于实时数据收集层之上,是基于Flink的实时计算层,美团选择了Flink on Yarn 模式,并且选择了Redis、HBase和ElasticSearch作为数据存储。同时美团还面向数据开发者进行作业托管、作业调优和诊断报警功能。
     整体看来,美团的实时计算平台主要包括作业管理和资源管理两个方面的能力。基于作业管理上可以做到任务的发布、回滚、状态监控等,在资源管理上基于多租户的设计进行业务隔离,并且Flink Job采用 on Yarn 的模式,任务之间进行资源隔离。
     根据公开的技术分析文档来看,目前美团点评的实时计算平台节点已经达到几千台,在资源的优化上需要做到自动扩容、缩容,另外实时计算任务和离线任务和混合部署也需要考虑到如何进行更细粒度的资源的释放。
Flink在实时计算平台和实时数据仓库中的作用_第1张图片

基于Flink的实时数据仓库

实时数仓背景

     传统的离线数据仓库将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL和其他建模后产出报表等应用。离线数据仓库主要是构建T+1的离线数据,通过定时任务每天拉取增量数据,然后创建各个业务相关的主题维度数据,对外提供T+1数据查询接口。
     实时数据仓库的建设是“数据智能BI”必不可少的一环,也是大规模数据应该中必然面临的挑战。

Flink在实时数仓的优势

     Flink在实时数仓和实时ETL中有天然的优势:

  • 状态管理:实时数仓里面会进行很多的聚合计算,这些都需要对状态进行访问和管理,Flink支持强大的状态管理。
  • 丰富的API:Flink提供极为丰富的多层次API,包括Stream API、Table API和Flink SQL
  • 生态完善:实时数仓的用途广泛,Flink支持多种存储(HDFS、ES等)
  • 批流一体:Flink已经在将流计算和批计算等API进行统一

实时数仓的应用

Flink在实时计算平台和实时数据仓库中的作用_第2张图片

上图是美图的实时数仓分层的架构模型图:

  • ODS层,基于MySQL Binlog 和 Kafka的日志消息
  • 明细层,基于事实数据关联成明细数据
  • 汇总层,使用明细数据进行多维度的查询汇总
  • 应用层,对外提供HTTP、RPC等查询服务

     美团的ODS存放主要是业务数据,其中大多是基于Mysql 的 Binlog 和消息数据,这也是在实际业务中常用的方法。在建设实时数仓的过程中一个要求就是要和实际业务系统进行解耦,所以消息系统是必然选择。
     明细层是根据业务进行划分,这一层的计算主要是基于Flink进行的,这一层承担着业务数据的解析、关联维表、明细存储的功能。
     汇总层灰基于明细数据进行再次关联和汇总,根据业务需要产出中间和指标结果层。
     最上层的是同一对外服务的应用层,主要是根据外部系统的查询需要提供不同的查询服务,基于HTTP、RPC等的查询是常见的选择,需要仔细品股访问的QPS、查询负载等对接口进行限流、幂等、容错设计,还有权限控制。

你可能感兴趣的:(大数据成神之路,Flink)