大数据从提出概念到四处开花,已经历10年,还未涉足大数据领域的企业在焦虑:如何涉足大数据。而已经开展大数据工作的企业也在焦虑:我现在有哪些数据,都存在哪儿?从各个业务系统收集的大量数据,应该选什么存储方式?数据口径不一致、数据质量不高的问题如何破解?当前数据处理流程冗长,如何快速支撑上层应用请求……概括起来,就是如何管理好大数据,真正挖掘出数据的价值。数据中台,或许是化解大数据行业集体焦虑症的一剂良丹妙药。
数据中台的价值:核心能力开放与共享
笔者提出一种理想中的数据中台架构,其简图如图1所示。一个完善的数据中台,既不限于数据仓库的范围,也不是全部的大数据平台,更不是简单对数据治理系统的升级。它包括了数据的采集交换、计算存储、治理管控和服务应用于一体,在大数据应用过程中处于承上启下的位置。
企业建设数据中台,最大的作用就在于实现了底层数据和前端业务需求的解耦,避免信息化建设过程中形成一个个数据孤岛或竖井式系统,有利于企业更高效完成数据采集和准备过程,更快响应前端业务需求。
建设数据中台,并不是简单的搭建一个新的大数据平台或大数据处理系统,而在于以数据为中心,以抽取、提炼、优化加上新建的方式,构建一系列公共的大数据技术组件,按照统一的处理逻辑,形成各种基于数据的服务能力,对外开放和共享,服务于个性化、变化快的各类业务需求,驱动企业商业服务得到更好创新发展。对于建设数据中台过程中形成的这些大数据服务能力,经过不断的抽象、沉淀和优化,最终成为了企业开展大数据工作中最核心的能力。因此可以说,数据中台对于企业的价值,就是为了实现核心能力的开放与共享。
数据中台应当具备的核心技术特性
如果把企业开展大数据相关工作比如建造一座房子,建设大数据平台就好比是自建或购买盖房子所用的各种工具,以及房子的整个建造和装修过程,其中用到的砖头、沙子、水泥、电线、插板等建筑原材料就是数据,而数据中台侧重于定义了整个工程中的蓝图、规划、架构、工序、设计、制度、流程、约束,同时还提供一个个模块化的建造组件,如木制成品、铝合金门窗、成品家具电器等。
业界从建设大数据平台热潮到重视数据中台战略,实际上是一种从“技术优先”到“数据优先”思维的转变。面对大数据,大数据平台强调的是技术实现和平台能力构建,而数据中台更侧重于全局规划与数据赋能业务。数据中台的建设,需要基于大数据平台能力,数据中台作为大数据平台的中枢,以及企业开展大数据管理工作的重要抓手,应当具备以下四个核心技术特性。
第一、大数据采集、计算、存储等基础能力共享,提高数据应用效率。数据中台战略提出之前,大数据应用往往都是采用烟囱式开发模式,一个新的项目启动,从数据的采集、计算、存储到应用的业务逻辑、前端界面、服务接口开发,都是紧耦合或只有部分模块可复用的。这些诸多环节的IT能力无法有效复用和共享,不但导致重复建设,由于只服务于本项目需求,项目结束,往往就会被废弃掉,也造成了极大资源浪费。基础能力缺乏共享,受影响的还包括需求响应不及时、数据应用效率低下。可以说,数据中台就是为了大数据基础能力共享而生。
第二、统一的数据标准、数据模型和元数据管理能力,支持大数据对内对外服务。建设数据中台的意义还在于统一管理数据标准、数据模型和元数据,为大数据应用提供口径一致的、可理解的数据,企业基于大数据的应用和分析才更准确和有效。特别是在智能化应用场景下,数据中台的助力能帮助数据分析师快速理解数据,缩短数据准备过程,为算法模型的训练和发布快速提供可解释、高可用的“基础原料”,提高算法模型构建效率,提升智能化应用对业务发展情况预测的准确性。企业借助数据中台,保证了数据的可获取、可管理、可理解,才能够真正有效地挖掘出大数据的价值,对外提高竞争力。
第三、强化数据质量稽核能力,准确发现业务异动和各类数据质量问题。数据中台战略的一个重要成功要素就是保证数据准确性、一致性和完整性,数据治理的最重要的目标可以认为就是为了保证数据的质量。数据中台建设中,加强数据质量核查能力尤其重要,在传统数据质量管理方式下,一般会通过制定数据质量规则,实现软件工具支撑下的数据合法性校验、数据质量问题监控、数据质量分析报告等功能,以实现企业数据质量改进提升。在AI大行其道的今天,越来越多的企业开始借助机器学习算法,通过对历史数据进行训练和优化,将算法模型固化到数据质量核查系统中,实现对业务数据的智能化核查,准确发现业务异动和各类数据质量问题,数据问题一旦出现就及时通知管理人员给予重视和治理。
第四、大数据服务能力平台化、云化、流程化,支撑大数据应用敏捷开发,快速响应业务需求。数据中台最终目标是为上层应用开放大数据服务能力,开放的目的是为了规避烟囱式的应用建设开发,满足不同应用对数据的需求,常见的服务能力开放模式有PaaS模式(平台即服务)和SaaS模式(软件即服务),业界还有一种衍生的提法叫DaaS模式(数据即服务,指对应用屏蔽不同数据来源,以集中化的方式对数据加工处理,如数据集成、质量稽核、清洗转换等,之后再将处理后数据提供给数据需求方),也可以以更小粒度来开放大数据服务能力,如API、FTP、数据库接口、WebService接口、Rest接口、Message服务等。同时,在数据中台内部,分解不同数据加工服务,以流程化方式串接,开发人员能够快速响应新的大数据需求,完成应用开发、部署和上线。
综上,四个核心技术特性总结起来就是:共享基础设施,统一数据管控,强化数据质量,开放服务能力。这些技术特性的结合,可以实现对数据的全生命周期管理,降低人员技能要求,提高数据准备效率,让数据中台发挥中间桥梁作用,与底层基础数据和上层应用需求完美衔接,形成一个良性的大数据闭环生态体系。
数据中台支撑企业大数据发展战略落地
越来越多的大型企业开始制定自己的大数据发展战略,其核心诉求就是利用好大数据资源,驱动业务发展和创新,提高企业在互联网时代的竞争力。一般来说,企业落实大数据发展战略需要经历以下四个阶段:
第一阶段,数据平台建设。在大数据的概念产生之前,业界用于存储数据的平台,包括了文件服务器、数据库(DB)、数据仓库(DW)、数据集市(DM)、操作型数据存储库(ODS)等。在探索对基础数据平台建设的过程中,随着数据处理技术的发展,以及数据存储成本的降低,企业内部各业务系统不同应用场景下采集的数据类型日趋多样化,结构化、半结构化、非结构化、4V(规模性、多样性、高速性和价值性)等概念不断提出,为了解决数据集中化计算和存储问题,大数据平台应运而生。大数据平台涵盖了各类数据采集、计算和存储系统,主要作用在于打通企业内部数据孤岛,整合各专业条线现有的系统和数据资源,形成统一化数据平台,实现企业的数据资源集中管理和共享。
第二阶段,数据资产管理。数据平台搭建完毕后,要考虑到多种类型数据资源统一管理的问题,数据治理或数据资产管理的理念开始提上日程,对企业生产经营和发展创新最为重要的数据资源被定义为数据资产,实施有效的数据资产管理活动是数据资源转化为数据资产的关键。数据资产管理的目的主要在于解决数据集成过程中,由于数据来源不统一、数据口径不一致、数据模型不规范等问题,导致的数据不准确、不完整、不及时等数据质量问题。数据资产管理阶段需要通过开展一系列数据管理活动,包括数据标准管理、数据模型管理、元数据管理、数据质量管理、数据安全管理等,对数据平台上的核心数据资产实现全生命周期管理,目的在于理清数据资产分布,降低数据获取成本,深度挖掘数据价值。
第三阶段,数据驱动运营。继第一阶段建设大数据平台,第二阶段管理大数据资产之后,是数据驱动企业业务运营和创新发展的阶段。在过去很长的时间里,“重建设、轻运营”一直是大多数企业信息化工作的常态,新项目纷纷上马,旧系统缺人维护,项目建设成果重用度低,很多项目都是“一次性”工程,缺乏持续性运营,不能充分发挥大数据价值。在第三个阶段里,数据中台概念开始提出,与大数据平台侧重底层计算和存储的基础设施建设不同,规划数据中台的核心在于帮助企业构建自身的数据价值体系。利用数据中台,企业能够以数据驱动的方式进行新业务运营模式的探索,挖掘数据价值,提升运营效率,辅助业务创新和管理决策,逐步构建起从数据资源采集、数据资产管理到数据运营和应用的全链路数据生态环境。
第四阶段,数据智能服务。最后一个阶段,目标是基于数据中台,开发数据智能服务。大数据为人工智能发展提供了基础资源,人工智能技术的核心就在于通过计算找寻大数据中的规律,对具体场景问题进行预测和判断。但目前在实际应用中,数据流通不畅、数据质量不高和数据安全风险等问题仍然极大制约着人工智能的发展和应用。现在,基于数据中台的计算存储和数据治理能力,就可以通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘,提取数据中所包含的有价值的信息和知识,使数据具有“智能”,并通过建立模型寻求现有问题的解决方案以及实现预测等,为企业提供基于大数据的分析、建议、优化、决策等智能化服务。
综上可以看出,数据中台在第三个阶段被正式提出,成为数据运营和智能服务的基础。数据中台的核心是数据,其对企业大数据战略的支撑作用主要在于实现数据和业务的解耦,沉淀和提炼公共可复用的数据服务能力,通过对数据的封装和开放,能够快速、灵活满足上层应用的需求。
结语
在当今互联网时代,企业为了快速响应用户的需求,借助大数据的力量往往可以事半功倍。大数据的数据量大、维度多、数据完备等特点,使得它从采集到存储、应用,都与过去的数据处理方法存在很大不同,因此,要使用好大数据,也需要在技术和思维上采用和过去不同的方式。数据中台理念的提出,能有效降低企业使用大数据的门槛,提高大数据应用效率,有利于企业管理好生产经营过程中积累的大量数据资产,挖掘大数据价值红利,将大数据资源更加聚焦在实现业务价值的目标上,助力企业将大数据发展战略真正落到实处。