中台是2019年开始火起来的一个概念,它最早是由阿里在2015年提出的“大中台,小前台”战略中延伸出来的概念,灵感来源于一家芬兰的小公司Supercell——一家仅有300名员工,却接连推出爆款游戏,是全球最会赚钱的明星游戏公司。2015年年中,马云带领阿里巴巴集团高管,拜访了位于芬兰赫尔辛基的这家移动游戏公司,这家看似很小的公司,设置了一个强大的技术平台,来支持众多的小团队进行游戏研发。这样一来,他们就可以专心创新,不用担心基础却又至关重要的技术支撑问题。恰恰是这家小公司,开创了中台的“玩法”,并将其运用到了极致。
下面我们举个例子,通过IT行业的发展来进一步理解什么是中台?为什么要出现中台?
在传统IT时代,无论项目如何复杂,都可以分为 前台 和 后台 两部分,简单明了。
每一个业务线负责维护自己的前台和后台。
这里的前台不仅仅包含前端页面,还包含提供的各种服务。
后台指的是底层的服务,例如我们提取的一些工具服务。
在当时,项目的发展相对稳定,并不需要像互联网时代那么快速的去迭代和试错,所以这种架构没有什么问题。
发展到现在这个时代,传统的前台+后台这种架构是存在一些问题的,每一个产品线之间都会有一些重复的内容,例如这里面的用户模块和支付模块,每一个产品线都需要,如果每一个产品线都是自己开发自己的,这样就会有三套用户模块和支付模块,对于集团公司而言,这就叫重复造轮子。如果后期又增加了新的产品线,还要重新再开发用户模块和支付模块。
所以说为了提高开发效率,我们有必要抽取出一个中间组织,为所有的产品线提供一些公共资源,这个中间组织就是中台。
下面来看一个引入了中台之后的案例。
本来是各个部门都建立了自己的数据采集,数仓,数据模型等内容,重复开发,浪费成本。各个部门的数据也没有打通,数据很难产生很大的价值。
引入了中台之后,构建了统一的数据采集、统一的数据资产中心、统一的数据建模、分析与挖掘、统一的数据服务,最终向各部门统一提供数据支撑。
接下来这个是阿里的大中台 小前台架构
阿里许多产品线的共通业务经过下沉,形成了中台的各种业务中心,为各大业务线提供支持。
这样前台应用就会更加灵活,想要构建一个新的前台应用也是比较快速容易的。
下面我们来总结一下中台这种架构主要解决的问题。
1、信息获取成本高,之前是每一个产品线都需要单独维护自己的数据,成本比较高。
2、服务具有不确定性,通过中台可以以不变应万变
3、互联互通成本高,不同产品线的数据想要打通成本过高。
4、低水平重复建设,不同产品线需要重复建设相同的模块。
通过中台,可以很好的解决这些问题。
中台是一个大而全的概念,基于中台延伸出了多个方向
技术中台
移动中台
业务中台
数据中台
研发中台
组织中台
等等…
在这里我们可以把中台理解为航空母舰,这些中台都是基于这个航空母舰延伸出来的
1、技术中台提供了技术支撑能力,帮助我们解决了基础设施,分布式数据库等底层技术问题,为前台特种兵提供了精良的武器装备。
2、移动中台提供了战场一线火力支援能力,帮助我们提供更加个性化的服务,增强用户体验,为战场提供了陆军支援能力,随机应变,所向披靡。
注意:这里的移动中台并不是说这个中台会移动,这里的移动表示的是移动端的意思,就是手机端。
3、业务中台提供重用服务,例如用户中心,订单中心之类的开箱即用可重用能力,为战场提供了强大的后台炮火支援能力,随叫随到,威力强大。
4、数据中台提供了数据分析能力,帮助我们从数据中学习改进,调整方向,为战场提供了强大及时的雷达监测能力,帮助我们掌控战场。
5、研发中台提供了技术实践支撑能力,帮助我们快速搭建项目,管理进度,测试,持续集成,持续交付,是前台特种兵的训练基地及快速送达战场的机动运输部队。
6、组织中台为我们的项目提供投资管理、风险管理、资源调度等,是战场的指挥部,战争的大脑,指挥前线,调度后方。
接下来我们来看一下阿里的中台技术栈全景
最下面是一些基础设施和基础中间件
上层是业务中台和数据中台
其中业务中台里面是以业务进行区分,抽取出来的一些公共组件,
例如:会员中心,商品中心,交易中心、订单中心、支付中心、评价中心
后期如果新增的产品线需要用到这些功能的时候可以从业务总台中直接开箱即用,提高效率。
数据中台中包含大数据计算服务(包含离线和实时)、大数据开发套件(这里面包含的是一些小工具)、画像分析、数据可视化、数仓规则、数据服务等,可以实现数据的一站式接入和使用。
移动中台包含了很多移动端的公共组件和功能。
基于这些中台就可以快速为上层这些应用提供各种支持了。
前面我们讲了什么是中台,中台其实是一个统称,基于中台也延伸出了很多分支。
每一个分支深究起来都有很多内容,不过目前来说,在这些中台的分支里面,数据中台是最为火热的,因为数据是可以直接为企业决策提供支持,可以直接产生价值的。
下面我们就来具体分析一下什么是数据中台
针对数据中台的定义业内目前有很多种说法,没有官方的定义,不同的人有不同的理解。
通俗来讲数据中台是指利用大数据技术,对海量数据统一进行采集、计算、存储,并且对外提供数据服务。
数据中台的主要作用在于将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,对内对外提供一致的,高可用的大数据服务。
正式一点来说,可以这样理解
数据中台是一套可持续 ”让企业的数据用起来 ” 的机制
通过数据中台把数据变为一种服务能力,既能提升决策水平,又能直接支撑企业业务
数据中台不仅仅是技术,也不仅仅是产品,而是一套完整的让数据用起来的机制。
数据中台不是单纯的技术叠加,不是一个技术化的大数据平台,二者有本质区别。
大数据平台更关心技术层面的事情,包括研发效率,平台的大数据处理能力,针对的往往是技术人员
而数据中台的核心是数据服务能力,数据中台不仅面向技术人员,更需要面向多个部门的业务人员。
数据中台并不是直接就有的,也是根据时代的发展,企业的需求,一步一步演进出来的。
下面我们就来看一下数据中台的演进过程。
最开始是 数据库阶段,主要是OLTP(联机事务处理)的需求;
以淘宝为例,最开始淘宝还只是一个简单的网站,淘宝的整个结构就是前端的一些页面,加上后端的数据库,只是个简单的OLTP系统,主要就是交易的事务处理。
这个阶段,互联网黄页才刚刚出现,数据来源大部分还是传统商业的ERP/CRM的结构化数据,数据量并不大,也就是GB的级别。简单的数据库就能满足需求。
随着淘宝用户超过100万,分析需求的比重就越来越大。淘宝需要知道它的交易来自于哪些地区,来自于哪些人,谁在买淘宝的东西等等,于是,就进入了数据处理的第二个阶段:数据仓库阶段。
数据仓库阶段,OLAP(联机分析处理)成为主要需求;
OLTP和OLAP对数据存储和计算的需求是不一样的,OLTP处理的是结构化的交易数据,而OLAP对应的是互联网数据,而互联网里面数据量最大的是日志,90%以上的数据都是用户点击之类的非结构化的日志数据,而且数据量已经达到了TB的级别。
针对分析需求,就诞生了数据仓库,数据仓库主要解决大量数据的存储和计算需求,也就是把非结构化的数据转化成结构化数据,存储下来。
这个阶段,数据仓库支持的主要就是BI和报表需求。
随着数据量越来越大,从TB进入了PB级别,原来的技术架构越来越不能支持海量数据处理,这时候就进入了第三个阶段:数据平台阶段。
主要解决BI和报表需求的技术问题;
这个阶段解决的还是BI和报表需求,但是主要是在解决底层的技术问题,也就是数据库架构设计的问题。
这在数据库技术领域被概括为「Shared Everything、Shared Nothing、或Shared Disk」,说的就是数据库架构设计本身的不同技术思路之争。
Shared Everything一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer。
Shared Disk的代表是Oracle RAC,用户访问RAC就像访问一个数据库,但是这背后是一个集群,RAC来保证这个集群的数据一致性。
问题在于Oracle RAC(实时应用集群)是基于IOE架构的(使用IBM的小型机、Oracle数据库、EMC存储设备)。在海量数据处理上,IOE架构有天然的限制,不适合未来的发展。
Shared Nothing的代表就是Hadoop。Hadoop的并行处理和扩展能力更好。
Hadoop的好处是如果要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。
综上所述,第三阶段就是,建立Shared Nothing的海量数据处理平台来解决数据存储成本增长过快的问题。
通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。
这个阶段的特征是数据量呈现指数级增长,从PB迈向了EB级别,未来会到什么量级,谁也说不清楚。
主要是因为,2015年之后,IOT(物联网)发展起来,带动了视频、图像、声音数据的增长,未来90%的数据可能都来自于视频、图像、声音这些非结构化数据,这些数据需要视觉计算技术、图像解析引擎+视频解析引擎+音频解析引擎来转换成结构化数据。5G技术的发展,可能会进一步放大视频、图像、声音数据的重要性。
线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集,这是前提。线下最大量的就是视频、图像、声音数据,而这些数据靠人来手工收集,肯定是不靠谱的,依靠IOT(物联网)技术和算法的进步,最终会通过智能端来自动化获取数据。
要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,以及打通其它领域的数据。
目前的数据中台,最底层的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在往上面就是一层数据服务层,数据服务层通过服务化API能够把数据和前台的业务层对接;数据中台里面都是系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。
数据仓库主要支持管理决策和业务分析。
数据中台是将数据服务化之后提供给业务系统,目的是将数据能力渗透到各个业务环节,不限于决策分析类场景。
数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容。
所以说数据仓库阶段的成果是可以转化到数据中台阶段的,并不会全部推倒重做。
根据我们前面对数据中台的分析,总结起来,数据中台需要具备以下能力:
随着业务的发展,企业内部往往有多个信息部门和数据中心,大量系统、功能和应用重复建设,存在巨大的数据资源、计算资源和人力资源的浪费,同时组织壁垒也会导致数据孤岛的出现,使得内外部数据难以全局规划,数据中台需要对数据进行整合和完善。
数据就像石油,需要经过提纯加工才能使用,这个过程就是数据资产化。
数据中台必须联通全域数据,通过统一的数据标准和质量体系,建设提纯加工后的标准数据资产体系,以满足企业业务对数据的需求。
为了尽快让数据用起来,数据中台必须提供快捷,快速的数据服务能力,让相关人员能够迅速开发数据应用,支持数据资产场景化能力的快速输出,以响应客户的动态需求。
数据中台通过打通企业数据,提供以前单个部门无法提供的数据服务能力,以实现数据的更大价值变现。