本人从实时产品平台角度,阐述作为产品经理对实时计算平台需要关注到的内容。
什么是数据中台·实时计算平台?
实时计算(实时开发)是为构建一套一站式、高性能实时大数据处理平台,广泛适用于流式数据处理场景。实时计算产品彻底规避繁重的底层流式处理逻辑开发工作,助力企业向实时化、智能化大数据计算升级转型。
数据中台中为什么构建实时计算平台?
在数据中台中,不同计算引擎对应不同的数据处理场景,Hadoop、MPP(greenplum、tidb)、Oracle、Teredata、SAP HANA等计算引擎往往是为精心打磨的离线数据仓库模型而生,无论是维度建模还是关系建模,其强调数据模型的复用,并且通过建模屏蔽了底层数据的差异,从而高效率的支撑上层应用。Python、R引擎主要解决数据挖掘场景,但是对于类似天猫实时大屏、实时金融风控、实时智能推荐、实时财务系统等业务场景就需要用到实时计算平台。
构建实时计算平台技术选型
Spark(准实时)、Storm(实时)、Flink(批流一体)都支持流计算,由于Flink批流一体、性能消耗低于storm、吞吐量高于storm,延时低于storm等的优良特性,大部分企业在构建实时计算平台时选择选择Flink框架。关于以上三种框架具备什么样的技术特性,这里不过多展开,作为产品经理,你也需要了解大数据平台常见的组件与架构。
实时计算平台应该具备什么样的能力 ?
常见的数据开发平台,不管是离线开发、实时开发、标签开发都需要开发任务管理、任务开发编辑器、调度任务、数据源管理,下面我将给大家分享一下我带团队做的实时计算开发平台核心功能与相关页面。
我们我们先来看一下在实时数据开发平台做数据加工的业务流程图。
1.数据源管理
Flink消费哪里的数据呢?与Flink最常搭配的流表数据是kafka,kafka中物理表叫做Topic。
2.创建实时计算任务
创建任务需要选择编写FlinkSQL时需要用到的表,这里需要编写查询语句即可,生成的数据会自动写入目的表,如下图所示FlinkSQL表选择。
在创建过程中需要配置一些参数,你必须要了解Flink的技术特点,要做实时开发计算平台,作为产品人需要具备大数据平台的技术素养,后面会讲到。
Flink 为流式/批式处理应用程序的开发提供了不同级别的抽象。
Flink应用程序由用户自定义算子转换而来的流式 dataflows 所组成。这些流式 dataflows 形成了有向图,以一个或多个源(source)开始,并以一个或多个汇(sink)结束。
Flink 程序本质上是分布式并行程序。在程序执行期间,一个流有一个或多个流分区(Stream Partition),每个算子有一个或多个算子子任务(Operator Subtask)。每个子任务彼此独立,并在不同的线程中运行,或在不同的计算机或容器中运行。
支持事件时间(Event Time)、处理时间(Processing Time)等时间概念。
有序流、无序流以及水印在算子中的流转
支持有状态计算,三种状态存储方式
MemoryStateBackend、FsStateBackend、RocksDBStateBackend
基于轻量级分布式快照(Snapshot)实现的容错
支持高度灵活的窗口(Window)操作
不同 Job 之间的每个(远程)网络连接将在 Flink 的网络堆栈中获得自己的TCP通道。 但是,如果同一 Task 的不同 SubTask 被安排到同一个TaskManager,则它们与其他 TaskManager 的网络连接将被多路复用并共享一个TCP信道以减少资源使用。图中的 A.1 -> B.3、A.1 -> B.4、A.2 -> B.3、A.2 -> B.4 这四条将会多路复用共享一个 TCP 信道。
当前反压模型存在的问题:
结论:A.1和A.2发送给 B.3的数据全被阻塞了,导致本来没有压力B.3现在无法接收数据。
如果你想更清楚获取一线大厂数据中台中实时计算平台如何构建的,发送后台,我会给你发送数据中台资料。
更多数据中台内容请关注微信公众号:产品人栖息地 数据中台系列陆续推出
1.数据产品.数据采集与集成(批量数据同步、数据实时同步、数据转换、CDC同步策略)
2.数据产品.数据仓库(数据集成、数据开发、离线数据仓库、实时数据仓库、数据字典)
3.数据产品.数据治理平台(元数据管理、主数据管理、数据标准管理、数据质检、数据资产管理、数据安全管理、数据模型管理、数据指标管理)
4.数据产品.数据开发平台(离线开发、实时开发、指标开发、标签开发)
5.数据产品.数据智能CDP平台(数据采集、数据仓库、指标管理、数据开发、数据分析、标签开发、自动化运营平台)
6.数据产品.数据智能DMP平台:(数据管理、数据开发、标签开发、标签圈选、自动化运营平台)
7.数据产品.数据分析与挖掘(BI分析、统计分析、机器学习)
8.数据产品.BI与数据可视化(可视化、BI分析方法、BI产品选择、BI平台从0到1,仪表板、报表、填报、数据报告、大屏)
9.数据产品.隐私计算(多方安全计算、联邦学习、可信执行环境)
产品人栖息地助你 产品职业成长,挑战百万年薪!