数据治理之死(二)

也许,上文饱含太多悲观的言语,而我又不是一个消极的人,不想给别人留下悲观的情绪,只是把现实的问题摆出来而已。
国内做数据中台算的上成功的就是BAT了,至于传统公司,迄今没有一个真正建成。阿里和腾讯的做法差不多,架构图也很像,百度虽然没啥名气,却也自成一系,百度更多的是得益于计算中心。而华为,一开始只是做数据湖,所有的数据都扔到湖里,然后在DAYU里做分析,讲究的是数据与平台分离,在原有数据上重新定义,做数据治理,因此更像传统意义上的数仓,只不过华为也在往数据中台的方向发展。

我与阿里内部做数据中台的有过交流,多少有些了解,下面就谈谈阿里的中台。
至于阿里内部各种政治斗争,逸闻趣事,或者组织变更,这里不想涉及,网上太多流言蜚语,有真有假,但更多的是增添了神秘感,好像阿里的中台做的有多么美好,成了无数企业的梦想,就像一个人富有了之后就有了各种美德,人也变得帅气了。
而实际上,阿里的数据中台萌芽于一些普普通通的做法,只是为了上阿里去,而不得不理清数据之间的关系,统一数据的来源,整合后再分发到应用,然后,就有了中台。
最终,阿里的架构形成的是数据与模型分离的中台,数据先进数据中台,数据中台提供标准细粒度的数据和算法,形成数据资产提供给业务中台,业务中台根据各业务领域创建模型,模型细分到表,概括地说有四层:
数据治理之死(二)_第1张图片
1、源数据层
2、数据中台:包括开发中心、数据开发、运维监控、项目管理,算法中心,由此形成数据中心和服务中心,这一层是基础研发,并不关心业务,可以说这一层是真正沉淀下来的东西,是和传统数仓的主要区别,虽然本质上阿里的中台架构和传统数仓没啥区别。
3、业务中台:阿里的业务自然是相当复杂的,业务中台就是为了整合业务,实际上,阿里内部并不怎么提业务中台的概念,都是外面捧出来的,说什么业务中台,每家公司都需要对业务进行整合处理,在业务层面建各种模型,这些模型也是针对具体业务需求的,业务是快变化的,所以业务中台自然是庞杂的,它的数据来源主要是数据中台的标准化服务,当然有时标准化的东西未必能满足,数据中台也需要根据需要定制。
4、具体应用
我们再看看传统数仓的架构:
数据治理之死(二)_第2张图片
不要相信那些复杂的架构图,就是这么简单,把数据收集起来,在其上做应用。阿里为什么有四层?很简单,因为它有东西可沉淀下来,把一些不变的或极少变的从繁重的业务中剥离出来,沉淀成数据中台,所以说数据中台不关心业务,而真正关心业务的是数据分析师,他们在所谓的业务中台写SQL或脚本,传统数仓只不过把两者合在一起了而已,所以没啥区别。如果你的数仓建的足够好,你完全可以把DM层叫数据中台,DW层叫业务中台。
当然,阿里的牛逼之处不仅把这台架构建起来,他做了更多的是数据安全,数据血缘,跟踪与告警等保障工作,有了这些,才是完整的中台。
想想有一天某个业务找到你说有个数据不对,你能快速地找到问题;想想你的某个脚本写的不好,第二天就被领导请去喝茶;想想你和你同事做的不同项目,被系统提醒你们的表结构或50%的表数据是相同的,存在重复建设…这些都是自动的,你每天干的活成本多少,收益多少,有多少是冗余的,多少是有效的,这些不都是数据架构里不可或缺的东西吗?
我们还有一个误区是,大谈特谈“主数据”,想想主数据是什么,它是相对固化了的,相对静态的数据,我们想法设法的把各种不同来源的数据强行合成一张表,用同一套ID系统来保障,让那些没有遵从新的ID规范的系统改掉吧,想想有多少钱花在维护这张“主数据表”上,想想要改造多个旧数据要花多少的钱和时间?我们把这个过程叫做“数据治理”。而阿里的数据中台并没有做这样的整合,因为阿里的数据更加复杂,虽然它没有传统企业那样的历史包袱。阿里把这种需要的整合放到了所谓的业务中台,什么项目需要整合,你自己去整合,举个例子,淘宝(天猫)、虾米、支付宝是阿里的三大用户体系,阿里并没有建一张大表,把这三个系统的用户弄在一起,统一ID规范和字段规范,这三个仍然是独立的,但在业务上,如果有个项目需要虾米的用户和支付宝的用户进行关联,则项目的数据分析师(业务中台)自己做关联,或根据手机号,或根据IMEI等,而另一个项目可能需要淘宝与支付宝用户关联,也只限于这个项目,而在数据中台,三套用户仍然是独立的,这时,你还会谈数据治理吗?
如果要做用户画像,则三个体系也是独立建的,你可以通过某个身份证号找到对应的IMEI,再找到手机号,再找到高德LBS里的位置信息,以及某个时段的WIFI信息,联系到运营商数据,找到更多有用的点,这些只是业务层面的,不关数据中台的事,所以,业务上还是各立山头,没有合在一块,那么可以认为阿里的架构就是:源数据->数据中台->应用。
那么阿里的数据中台沉淀了啥?无非是一些标准固化并且细化的数据,标准的算法、AI。好就好在,在此架构之中,有很多监控、监管、报警、安全控制、隔离、脱敏等。如果有数据要进入数据中台,做数据中台的人会进行数据检查、处理,并形成数据报告。
过分强调数据治理没有多大用处,做好数据整合,规范执行,能及时整改,做好配套才重要。像华为那样把数据全扔进湖里,再做处理是不得已,毕竟历史包袱重,有很多不规范,甚至存在excel里的数据,或者古老的手工记录的数据,要是一开始就严格审查,恐怕没几个数据能有资格进数据湖。
另外,阿里的兄弟也说了,其他非互联网公司搞数据中台不成功的原因还有:
###历史包袱太重
这一点上一篇已经说过
###雇供应商却不愿意花钱,或者付线太慢
不给钱谁愿意干活呀,做过项目的人都知道,尤其是那种做外包项目的人,对这点深有体会。

你可能感兴趣的:(数据治理,数据仓库)