不管是要弄清楚数据中台还是数据平台,都逃不开这几个问题。
为什么是大数据?
数据资产指哪些内容?
做大数据的是不是一定要写代码?
数据如何体现业务价值?
什么是所谓的数据安全?
...
这几年最火的莫过于“中台”,各公司纷纷打造自己的业务中台和数据中台,顾名思义,业务中台,是为了解决业务共性问题,而对服务进行的统一抽象。公共服务融合,产生标准化解决方案提供上层应用使用。那么,数据中台是什么,和原有的数据平台之间是什么关系。
本文重点描述一下数据在使用管理侧的变化,同时站在笔者的角度,来解释为什么很多公司有的大数据平台,缺依旧要打造数据中台。
数据资产
数据资产指大数据中的价值部分。随着信息化程度越来越高,数据生产的方式也越来越多。
这些数据里,有的数据是当前存在价值,例如监控类日志;有的数据是在一定周期内存在价值,例如平台根据用户过去半年行为来判断用户是否流失;有的数据则是永久价值,例如用户基本身份信息;有的则是一些无价值数据,比如一些与预期数据格式或内容不符的脏数据。
数据经过生产,采集,清洗,转化,加工,这一系列的操作,最后入仓完成持久化的数据信息,就是系统所需的数据资产。
从维度上划分,包含用户画像,用户行为数据(浏览,购买,收藏等),内容资产(信息流、商品SKU等),模型资产等。
数据的体现上,又表现为实时数据和离线数据。实时数据,实时获取实时处理,秒级反馈。例如双十一大屏。离线数据,数据定期采集,汇总,以某一固定周期进行加工计算。例如用户半年消费金额。
一个企业未来的价值,一方面在于主营业务的发展,另一方面表现在所掌握的全网数据资产。拥有数据资产越多的企业,可以很好的完成应用导流,精准人群覆盖,趋势预测,使商业更加透明化。
数据存储
任何一本计算机普及教材上,都会标注,数据在计算机上,会存储在内存或磁盘中,内存快但小,磁盘大但慢。。。
所以呢,当一台机器磁盘空间不够时,用两台,三台,一百台,构成集群分片存储,保障数据容量,同时多备份保障不丢失。当一台机器不够计算时,MapReduce,RDD,在多分片上进行数据处理,之后完成数据结果汇总。分治思想,几乎贯穿了所有的大数据应用。
多数大中型企业,都会有自己的数据管理平台,通常以hdfs为存储介质,yarn为调度,hive、spark为计算引擎,kylin,presto为OLAP引擎。这些组件混合,也就构成了通常意义上的大数据平台。
整个ETL的过程,就是数据从采集清洗到入仓的过程,把不同阶段的数据,分层存储,就形成了传统意义上的数据仓库。
所有的数据应用,都会构建在以数据仓库为元数据的平台之上。
数据计算
数据计算,就是从一堆杂乱的数据中,抽取出所需的部分。
例如
获取一个人最近半年对母婴用品上的浏览量、收藏量,下单量和交易金额。通过这样的结果数据,对此用户进行母婴评级。
这种问题在任何一家电商企业都是很常见的需求。但实现起来,却有一定的复杂度。
首先,用户浏览数据,通过点击流上报,以用户访问页面的行为为触发,进行内容主动上报。
收藏量,从用户的收藏列表中获取,同时需要对商品类别做区分,商品类别在商品模块里。
下单量和下单金额,可以从用户的订单里进行统计,但同时要扣除部分用户退单数据。
这只是一个基础的计算问题,但是依旧要使用到很多维度的基础数据进行融合,那么更为复杂的计算,不但要涉及到不同的数据块,不同的时间周期,不同的数学模型,还有不同的数据规格及存储结构。
数据赋能
数据计算、加工的目的,当然是为业务服务。有人需要订单信息,才会有相应的订单加工需求。
业务人员多半都不懂这些数据存储的方式和差别,又不能要求每一个管理集群,做数据存储加工的同学熟悉全部的业务逻辑。因此,为平衡这类问题,多半会由研发同学发起,开发一套可视化的数据平台,业务人员只需要鼠标点点,就能完成底层数据的混合,加工,展示。这样的基础平台,提供了数据采集,存储,计算,展示,并有可视化的ide提供出来。可以由非研发的业务人员自由组合操作,从而达到自己的业务要求。这也就是通常意义上的数据平台。
那么,有了这个基础设施,每个人都可以再上边加工自己的业务,我要一份用户A的订单数据,通过各种融合,得出了结果。别人也需要这份数据,他也需要在做一遍吗?当然不用,拿现成的就行。这样一来,有一百个人有相似业务要求,我们就节省了99次的计算,这样的基于数据平台,又完成了业务层内容抽象的平台,被越来越多的公司定义为数据中台。
总之,数据平台就是集成了常用大数据组件,覆盖了大数据处理的各个环节,提供出的一套基础平台。可提供技术人员和非技术人员自由进行业务开发运算。数据中台就是依托数据平台,再平台之上以业务沉淀为背景,构建一套完整的基于业务场景的数据计算服务,并将各服务有效提供给应用使用,同时对各应用的数据资产进行有效管理的平台。
任何一种技术,都是为业务服务,大数据也不例外。数据本身不具备行业价值,一定是在特定的行业背景下,才能发挥足够的作用。因此,行业里越来越多企业提出,数据服务业务化。
数据中台将各种数据应用的共性需求进行抽象,形成数据能力,避免重复场景出现浪费过多的人力成本。数据中台管理的内容包含应用、用户、资产及能力(大部分以API方式提供)。
随着业务的逐渐开展,所需的业务指标也越来越多,不但有统计型指标,还有很多预测型指标。通过以往数据表现,对未知数据进行结果预判,这就是一个机器学习过程。因此,在数据平台之外,通常都会有一个机器学习平台,从数仓里获取历史数据,经过一系列模型加工,生成对未知数据预测的模型表达式。这部分内容,同样是数据资产的重要组成。提供出来的模型计算服务,也会通过数据中台封装对外赋能。
数据安全
很多企业都在做着数据发财梦,随之而来的,是数据的盗用,滥用。很多数据绑定了用户的隐私信息,身份信息,购物信息,浏览信息,位置信息,偏好信息等。在法律法规上,这些数据由用户通过平台生产,理应所属用户。平台通过对这类数据挖掘分析,更好的服务用户,但如果将数据外泄、转卖,就触碰了红线。
既然数据需在合法合规的方式下使用,那么如今行业进行数据赋能最大的障碍就是多种所属数据融合。任何一家企业都不会贸然把自己的数据给到其它企业。但又希望能进行数据融合赋能,因此就衍生出了很多技术方向的解决方案,例如联邦学习,智能合约等。
写在最后
随着B端业务的逐渐崛起,更多的企业把目光投向了行业解决方案。一方面通过业务积累完成业务沉淀,另一方面就是想数据赋予更多的业务属性,实现行业价值最大化。不管是数据平台,还是数据中台,都会在未来的业务场景中,占据越来越重要的位置。