阿里云云栖号

Flink 助力美团数仓增量生产

简介：本文由美团研究员、实时计算负责人鞠大升分享，主要介绍 Flink 助力美团数仓增量生产的应用实践。内容包括：1、数仓增量生产；2、流式数据集成；3、流式数据处理；4、流式 OLAP 应用；5、未来规划。

一、数仓增量生产

1.美团数仓架构

先介绍一下美团数仓的架构以及增量生产。如下图所示，这是美团数仓的简单架构，我把它叫做三横四纵。所谓三横，第一是贯穿全链路的元数据以及血缘，贯穿数据集成、数据处理、数据消费、以及数据应用的全过程链路。另外一块贯穿全链路的是数据安全，包括受限域的认证系统、权限系统、整体的审计系统。根据数据的流向，我们把数据处理的过程分为数据集成、数据处理、数据消费、以及数据应用这 4 个阶段。

在数据集成阶段，我们对于公司内部的，比如说用户行为数据、日志数据、DB 数据、还有文件数据，都有相应的集成的系统把数据统一到我们的数据处理的存储中，比如说 Kafka 中。
在数据处理阶段，分为流式处理链路、批处理链路以及基于这套链路的数仓工作平台（万象平台）。生产出来的数据，经过 Datalink 导入到消费的存储中，最终通过应用以不同的形式呈现出来。

我们目前在 Flink 上面应用比较广泛的地方，包括从 Kafka 把数据导到 Hive，包括实时的处理，数据导出的过程。今天的分享就集中在这些方面。

2.美团 Flink 应用概况

美团的 Flink 目前大概有 6000 台左右的物理机，支撑了 3 万左右的作业。我们消费的 Topic 数在 5 万左右，每天的高峰流量在 1.8 亿条每秒这样的水平上。

3.美团 Flink 应用场景

美团 Flink 主要应用的场景包括四大块。

第一，实时数仓、经营分析、运营分析、实时营销。
第二，推荐、搜索。
第三，风控、系统监控。
第四，安全审计。

4.实时数仓 vs 数仓增量生产

接下来我要引入增量生产的概念。离线数仓关注的三块需求，第一个就是时效性。第二个就是质量，产出的数据的质量。第三个就是成本。

关于时效性，有两个更深层次的含义，第一个叫做实时，第二个叫准时。并不是所有的业务需求都是实时的，很多时候我们的需求是准时。比如做经营分析，每天拿到相应的昨天的经营数据情况即可。实时数仓更多的是解决实时方面的需求。但是在准时这一块，作为一个企业，更希望在准时跟成本之间做一个权衡。所以，我把数仓的增量生产定义为对离线数仓的一个关于准时跟成本的权衡。另外，数仓增量生产解决比较好的一个方面是质量，问题能够及时发现。

5.数仓增量生产的优势

数仓增量生产的优势有两点。

能够及时发现数据质量问题，避免 T+1 修复数据。
充分利用资源，提前数据产出时间。

如下图所示，我们期望做的实际上是第二幅图。我们期望把离线的生产占用的资源降低，但同时希望它的产出时间能够提前一步。

二、流式数据集成

1.数据集成 V1.0

我们来看一下流式数据集成的第一代。当数据量非常小以及库非常少的时候，直接做一个批的传输系统。在每天凌晨的时候把相应的 DB 数据全部 load 一遍，导到数仓里面。这个架构优势是非常简单，易于维护，但是它的缺点也非常明显，对于一些大的 DB 或者大的数据，load 数据的时间可能需要 2~3 个小时，非常影响离线数仓的产出时间。

2.数据集成 V2.0

基于这个架构，我们增加了流式传递的链路，我们会有经过流式传输的采集系统把相应的 Binlog 采集到 Kafka，同时会经过一个 Kafka 2 Hive 的程序把它导入到原始数据，再经过一层 Merge，产出下游需要的 ODS 数据。

数据集成 V2.0 的优势是非常明显的，我们把数据传输的时间放到了 T+0 这一天去做，在第二天的时候只需要去做一次 merge 就可以了。这个时间可能就从 2~3 个小时减少到一个小时了，节省出来的时间是非常可观的。

3.数据集成 V3.0

在形式上，数据集成的第三代架构前面是没什么变化的，因为它本身已经做到了流式的传输。关键是后面 merge 的流程。每天凌晨 merge 一个小时，仍然是非常浪费时间资源的，甚至对于 HDFS 的压力都会非常大。所以在这块，我们就迭代了 HIDI 架构。

这是我们内部基于 HDFS 做的。

4.HIDI

我们设计 HIDI，核心的诉求有四点。第一，支持 Flink 引擎读写。第二，通过 MOR 模式支持基于主键的 Upsert/Delete。第三，小文件管理 Compaction。第四，支持 Table Schema。

基于这些考虑，我们来对比一下 HIDI，Hudi 和 Iceberg。

HIDI 的优势包括：

支持基于主键的 Upsert/Delete
支持和 Flink 集成
小文件管理 Compaction

劣势包括：不支持增量读。

Hudi 的优势包括：

支持基于主键的 Upsert/Delete
小文件管理 Compaction

劣势包括：

写入限定 Spark/DeltaStreamer
流读写支持 SparkStreaming

Iceberg 的优势包括：支持和 Flink 集成。

劣势包括：

支持基于 Join 的 Upsert/Delete
流式读取未支持。

5.流式数据集成效果

如下图所示，我们有数据产生，数据集成，ETL 生产三个阶段。把流式数据集成做到 T+0，ETL 的生产就可以提前了，节省了我们的成本。

三、流式数据处理

1.ETL 增量生产

我们来讲一下 ETL 的增量生产过程。我们的数据从前面进来，到 Kafka 之后，有 Flink 实时，然后到 Kafka，再到事件的服务，甚至到分析的场景中，这是我们自己做的分析链路。

下面是批处理的一个链路，我们通过 Flink 的集成，集成到 HDFS，然后通过 Spark 去做离线生产，再经过 Flink 把它导出到 OLAP 的应用中。在这样的架构中，增量的生产实际上就是下图标记为绿色的部分，我们期望用 Flink 的增量生产的结构去替换掉 Spark。

2.SQL 化是 ETL 增量生产的第一步

这样的一个架构有三个核心的能力。

第一， Flink 的 SQL 的能力要对齐 Spark。
第二，我们的 Table Format 这一层需要能够支持 Upsert/Delete 这样的主键更新的实时操作。
第三，我们的 Table Format 能够支持全量和增量的读取。

我们的全量用于查询和修复数据，而我们的增量是用来进行增量的生产。SQL 化是 ETL 增量生产的第一步，今天分享的主要是说我们基于 Flink SQL 做的实时数仓平台对这一块的支持。

3.实时数仓模型

如下图所示，这是实时数仓的模型。业界应该都看过这样的一个模型。

4.实时数仓平台架构

实时数仓的平台架构，分为资源层、存储层、引擎层、SQL 层、平台层、还有应用层。在这里重点强调两点。

第一，是对于 UDF 的支持。因为 UDF 是弥补算子能力中的非常重要的一环，我们希望在这里面做的 UDF 能够加大对于 SQL 能力的支持。
第二，是在这个架构里面只支持了 Flink Streaming 的能力，我们并没有去做 Flink 的批处理的能力，因为我们设想未来所有的架构都是基于 streaming 去做的，这跟社区的发展方向也是一致的。

5.实时数仓平台 Web IDE

这是我们数仓平台的一个 Web IDE。在这样的一个 IDE，我们支持了一个 SQL 的建模的过程，支持了 ETL 的开发的能力。

四、流式 OLAP 应用

1.异构数据源同步

下面看关于流式的导出跟 OLAP 的应用这一块。如下图所示，是异构数据源的同步图。业界有很多开源的产品做这一块。比如说，不同的存储里面，数据总是在其中进行交换。我们的想法是做一个 Datalink 这样的一个中间件，或者是中间的平台。然后我们把 N 对 N 的数据交换的过程，抽象成一个 N 对 1 的交换过程。

2.基于 DataX 的同步架构

异构数据源的第一版是基于 DataX 来做同步的架构。在这套架构里面，包含了工具平台层、调度层、执行层。

工具平台层的任务非常简单，主要是对接用户，配置同步任务，配置调度，运维。
调度层负责的是任务的调度，当然对于任务的状态管理，以及执行机的管理，很多的工作都需要我们自己去做。
在真正的执行层，通过 DataX 的进程，以及 Task 多线程的一个形式，真正执行把数据从源同步到目的地。
在这样的一个架构里面，发现两个核心的问题。第一个问题就是扩展性的问题。开源的单机版的 DataX 是一个单机多线程的模型，当我们需要传输的数据量非常大的时候，单机多线程模型的可扩展性是很大的问题。第二个问题在调度层，我们需要去管理机器、同步的状态、同步的任务，这个工作非常繁琐。当我们的调度执行机发生故障的时候，整个灾备都需要我们单独去做这块的事情。

3.基于 Flink 的同步架构

基于这样的架构，我们把它改成了一个 Flink 的同步的架构。前面不变，还是工具平台层。在原有的架构里面，我们把调度层里面关于任务调度和执行机的管理这一块都交给了 Yarn 去做，这样我们就从中解脱出来了。第二个，我们在调度层里面的任务状态管理可以直接迁移到 cluster 里面去。

基于 Flink 的 Datalink 的架构优势非常明显。

第一，可扩展性问题得到解决了，同时架构也非常简单。现在当我们把一个同步的任务拆细之后，它在 TaskManager 里面可以扩散到分布式的集群中。
第二，离线跟实时的同步任务，都统一到了 Flink 框架。我们所有同步的 Source 和 Sink 的主键，都可以进行共用，这是非常大的一个优势。

3.基于 Flink 的同步架构关键设计

我们看一下基于 Flink 的同步架构的关键设计，这里总结的经验有四点。

第一，避免跨 TaskManager 的 Shuffle，避免不必要的序列化成本；
第二，务必设计脏数据收集旁路和失败反馈机制；
第三，利用 Flink 的 Accumulators 对批任务设计优雅退出机制；
第四，利用 S3 统一管理 Reader/Writer 插件，分布式热加载，提升部署效率。

4.基于 Flink 的 OLAP 生产平台

基于 Flink 我们做了 Datalink 这样的一个数据导出的平台，基于 Datalink 的导出平台做了 OLAP 的生产平台，在这边除了底层的引擎层之外，我们做了平台层。在这上面，我们对于资源、模型、任务、权限，都做了相应的管理，使得我们进行 OLAP 的生产非常快捷。

这是我们的 OLAP 生产的两个截图。一个是对于 OLAP 中的模型的管理，一个是对于 OLAP 中的任务配置的管理。

五、未来规划

经过相应的迭代，我们把 Flink 用到了数据集成、数据处理、离线数据的导出，以及 OLAP 生产的过程中。我们期望未来对于流批的处理能够是统一的，希望数据也是流批统一的。我们希望，不管是实时的链路，还是增量处理的链路，在未来数据统一之后，统一用 Flink 处理，达到真正的流批一体。

作者：阿里云实时计算Flink

原文链接

本文为阿里云原创内容，未经允许不得转载

你可能感兴趣的:(云栖号技术分享)

集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本