现在各种新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑;
企业层面的有数字化转型、互联网经济,数字经济、数字平台;
平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;
技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…
数据中台的概念是最早由阿里巴巴首次提出,2015年阿里张勇推出“大中台、小前台”战略,将庞大的业务服务能力,都装进了“业务中台”里,包括交易中心、支付中心、清算中台、用户中心、产品中心等13个业务域。灵感来源于一家芬兰的小公司Supercell——一家仅有300名员工,却接连推出爆款游戏,是全球最会赚钱的明星游戏公司:这家看似很小的公司,设置了一个强大的技术平台,来支持众多的小团队进行游戏研发。这样一来,他们就可以专心创新,不用担心基础却又至关重要的技术支撑问题。恰恰是这家小公司,开创了中台的“玩法”,并将其运用到了极致。对于这种多项目并行,各项目相对独立,但业务需求所需要的支持类似的公司,“中台”就有存在的价值。这种类似的思维应用到大企业中,就是需要一个资源整合和能力沉淀的平台,对不同的部门进行总协调和支持,“中台”也就应运而生。
随着阿里中台战略的深入,2018年提出了“业务-数据双中台”战略,可以理解为升级版的中台战略,开始向社会输出中台能力和方法论。一分为二:数据中台、业务中台。
这一“拆”,仿佛打通了中台战略的任督二脉,从此一发不可收拾,相继拆分出:移动中台、技术中台、风险能力中台、研发效能中台等等。腾讯、百度也跟随其后,例如百度先后拆分出:搜索中台、知识中台、AI中台、技术中台等等。腾讯的数据中台,包括:用户中台、内容中台、应用中台等;技术中台,包括:通信中台、AI中台、安全中台等。
中台经过数年的发展,已经进入到“碎片化中台”时代。
2019是数据中台的元年,但是数据中台为啥突然火了?
数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。
大中台,小前台”适用场景:
以上概念是从互联网上搜索并拷贝出来的,总的来说中台也好,数据中台也好,还缺乏一个标准的定义,仅从字面上理解,数据中台是解决如何用好数据的问题。
从数据处理的维度来聊一聊数据中台经历的四个阶段:数据库阶段、数据仓库阶段、数据平台阶段、数据中台阶段。
数据库阶段:OLTP(事务处理)是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查。比如银行交易、电商交易等
数据仓库阶段:数据仓库系统的主要应用主要是OLAP(联机分析处理),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。比如复杂的动态报表分析、用户价值分析等
数据平台阶段:其实,目前业界并没有对大数据平台做统一的定义,一般情况下,只要使用了Hadoop/Spark/Storm/Flink等这些分布式的实时或者离线计算框架,建立计算集群,并在上面运行各种计算任务,具有数据互联互通、支持多数据集实时同步、支持数据资源管理、实现多源异构数据的整合管控;提供完善的大数据分析基础运行环境,提供统一二次开发接口等能力的,就算的上理解上的大数据平台。主要是为了解决大数据存储计算 + 数据应用管理 + 任务监控 + 数据资产管理 + 开发管理 + 可视化报表需求等
数据中台阶段:指具有全域级、可复用的数据资产中心与数据能力中心,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,提供干净、透明、智慧的数据资产与高效、易用的数据能力来,能够对接OLTP(事务处理)和OLAP(报表分析)的需求,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设,强调的是数据业务化的能力。数据中台的核心理念在于“数据取之于业务,用之于业务”,即它相比于数据平台注重的是对业务的积累和沉淀,构建了从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。
参考:数据库VS数仓VS数据平台VS数据中台
数据中台也被赋予了很多扩大的外延,也上升到了数据的采集、计算、存储、加工和数据治理等方面,这就和传统的大数据平台在功能和作用上产生了很大的重叠;而大数据平台又是从数据仓库发展起来的。那到底这三者的关系是怎么样的呢?概括地说,三者的关键区别有以下几方面:
按照传统的定义,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库一般为满足内生的应用,满足内部决策支持分析需求,当然随着数据仓库数据采集的要求越来越高,数据仓库本身也在不断的改进,从单机的ETL到集群的ETL,从传统的小机+DB,向PC服务器+分布式DB拓展。数据治理也逐渐增强,从元数据管理到数据质量管理,再到数据运维管控和数据安全管控,但其实数据仓库给企业留下的最大财富是企业数据模型,这些模型随着前端业务系统的发展变化,即使系统不再了,也可以在短期内快速重建起来,这也是大数据平台能够快速建设起来的一个重要原因。
数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。
数据仓库实现了企业数据模型的构建,数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据如何安全的、快速的、最小权限的、且能够溯源的被探测和快速应用的问题。
而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。数据中台不应该被过度的承载平台的计算、存储、加工任务,而是应该通过一系列工具、组织、流程、规范,实现数据前台和后台的连接,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。
厚平台,大中台,小前台;没有基础厚实笨重的大数据平台,是不可能构建数据能力强大、功能强大的数据中台的;没有大数据中台,要迅速搭建小快灵的小前台也只是理想化的。我想这才是数据中台的初衷。
参考:数据中台全景架构及模块解析!一文入门中台架构师!
数据中台离不开这几个模块:数据汇聚、数据开发、资产管理、数据安全、数据服务。那么赶紧跟上我的脚步潜入内部去一探究竟吧。
数据汇聚,首先必然要有数据来源,有了数据来源之后,需要确定采集工具,有了采集工具之后你还要确定存储位置。
数据是数据中台的核心,所以数据汇聚无疑是数据中台的入口。企业中的数据来源极其多,但大都都离不开这几个方面:数据库,日志,前端埋点,爬虫系统等。
这些数据分散在不同的网络环境和存储平台中,另外不同的项目组可能还要重复去收集同样的数据,因此数据难以利用,难以复用、难以产生价值。数据汇聚就是使得各种异构网络、异构数据源的数据,方便统一采集到数据中台进行集中存储,为后续的加工建模做准备。
数据汇聚可以是实时接入,比如实时消费mysql的binlog进行数据同步,也可以是离线同步,比如使用sqoop离线同步mysql数据到hive。
数据汇聚一般用到的技术包括:Flume、Sqoop、Datax、Canal。
采集之后必然需要将数据落地,即存储层,常见的有:MYSQL、Oracle;Hive、Hdfs、HBase;Redis;ElasticSearch
数据开发可以理解为数据汇聚和数据资产的一个桥梁。何为数据资产?数据资产是有价值的数据。而数据汇聚是原始数据,业务人员一般是难以使用的。原始数据–>有价值的数据,是需要一个过程的。那么就是让数据开发模块来完成这个过程。
数据开发是一整套数据加工及管控的工具,包括离线开发,智能调度,实时开发,人工智能等。
举个例子,某公司想知道广告投放的效益,而原始数据包括埋点数据,用户注册数据,用户消费数据等,是不是需要整理一个sql,跑一个广告效益报表呢?毫无疑问需要。那么我们就可以通过智能调度平台,定时跑出业务需要的数据;也可以通过实时流计算,实时展示业务需要的数据。这都是属于数据开发模块的功能。
有了数据汇聚、数据开发模块,中台已经具备传统数仓平台的基本能力,可以做数据的汇聚以及各种数据开发,就可以建立企业的数据资产体系。
这里我有必要再次强调一遍:数据资产指的是有价值的数据。这个也正是资产管理模块需要去做的事情。如何让数据变的有价值?第一体现在数据本身上,比如需要保证数据的质量。第二体现在业务上,偏技术的数据体系业务人员是比较难理解的,因此资产管理需要用企业全员更好理解的方式,把企业的数据资产展现给企业全员(当然要考虑权限和安全管控)。
数据资产管理包括数据地图、元数据管理、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。
现在你会有很多疑问,数据地图是什么?元数据管理是什么?数据血缘又是什么?这些都是非常核心的地方,发几张图让你对它们有一个初步的概念。
资产地图:本质上是数据字典的图形化版本,阿里有多少数据、如何存储、数据之间关系如何、如何找、如何用都可以从资产地图找到答案,蛮形象的,从网上资料看,其设计还是值得借鉴,以下是一些界面截图。
数据质量和安全在很多架构图中归属于资产管理模块,但是笔者认为数据质量和安全应该是贯穿整个数据中台的。数据汇聚和数据开发的时候显然也应该考虑质量和安全问题,所以笔者倾向于将数据质量单独拿出来作为一个模块。
我们会遇到无处不在的数据质量问题,包括业务系统脏数据、数据不一致不准确等。影响数据使用和上层决策。为什么会出现数据质量问题呢?大部分是如下几个原因
由于这些原因,会导致数据不符合以下"四性",因此存在数据质量问题:
而数据质量无疑是非常重要的一部分,就算你数据再多再快,不准也无用。因此数据质量管理平台尤为重要。数据质量管理是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。包括数据探查、对比、质量监控、SQL扫描和智能报警等功能。数据质量监控可以全程监控数据加工流水线,根据质量规则及时发现问题,并通过报警通知负责人及时处理。
在实际生产中,可从以下几个方面做好数据质量工作:
数据安全的重要性不用多说,如果你把用户信息泄露了,严重会导致整个公司都倒闭。因此对于全链路的数据,都应该做好数据安全工作。比如应该把业务库/日志的敏感数据进行脱敏,为身份证、银行卡等常用的数据类型提供掩盖脱敏策略。以及日志审计等。
数据生命周期安全可以分为以下几个部分:
前面利用数据汇聚、数据开发建设企业数据资产,利用数据管理展现企业的数据资产,但是并没有发挥数据的价值。数据的价值体现一定是在业务层面、即数据服务体系。就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。
数据服务体系是基于公司自身的产品和业务的,比如以电商公司为例,数据服务就包括了:精准营销、用户画像、经营分析、可视化大屏等。
网上目前好多概念都也没有个统一的说法,参考了一些文章概括为:OneData、OneID、OneMeta、OneService这四个为并列关系,可参考:读透《阿里巴巴数据中台实践》,其到底有什么高明之处?、阿里巴巴数据中台实践.pdf;Onedata体系包括OneModel,OneID,OneService3个方面,参考:详解阿里云数据中台,一篇文章全面了解大数据“网红” ;OneData体系、OneEntity体系、OneService体系,三大体系相辅相成、相互依赖,OneData体系为基础,参考:阿里数据中台之OneData体系。
总结,OneData标准还算是比较统一的。参考:干货:解码OneData,阿里的数仓之路。、美团OneData探索之路
目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用,强调技术对于业务的推动作用,但在商业领域落地的层面上,更多时候技术的发展和演进都是需要跟着业务走,技术的发展和进步需要基于业务方的需求与数据场景应用化的探索来反向推动。这个也就是为什么在2020年底知乎、脉脉都在疯传阿里在拆“大中台”?个人猜想,原因是没有真正理解中台的本质,其实阿里在最初建设数据中台的目的主要是为了提升效率和解决业务匹配度问题,最终达到降本增效,所以说“拆”是假的,在“拆”的同时一定在“合”,“拆”的一个方面是企业战略布局层面上的规划,架构升级,如果眼界不够高,格局不够大,看到的一定只是表面;另一方面不是由于组织架构庞大而做“拆”的动作,而是只有这样才能在效率和业务匹配度上,做到最大利益化的解耦。
可参考:
阿里彻底拆中台了!
听说,阿里“拆中台”了?
从阿里提出的拆中台,聊聊中台战略是否过时
阿里开始拆中台了
阿里拆中台了?不是中台错了,是做法错了
阿里真的要“拆”中台?