美丽说垂直电商火了,业务量的不断增加,对于基础数据的利用和挖掘成为美丽说非常重要的一项工作,这里就涉及到了另一个热词——大数据。
美丽说数据智能部副总监高玉石将基础数据建设的演进过程形象的比喻成中国社会的进步过程。
最开始的原始社会。通常情况下适用于创业公司,对技术人才的要求是全栈工程师(此状态下,产品研发工程师又称全栈工程师),此状态公司数据重要性不高。比如数据需求方提出需求,产品研发工程师满足需求,比较简单。
到了奴隶社会,对产品研发工程师进行了功能细分,分为数据工程师和产品研发工程师,由此,数据工程师专门负责数据需求方提出的数据需求,而产品研发部负责产品的研发。工程师分工细化(产品研发工程师+数据工程师),有专属的数据工程师,但是数据工程师被动,日志可能存在易用性问题(产品研发工程师打印什么日志,只能按照日志输出什么数据)。
来到了封建社会,数据需求方、数据工程师、产品研发工程的沟通变成了线性沟通,数据需求方直接找数据工程师提出需求,而数据工程师找产品研发工程师落实产品,彼此之间都有了清晰的汇报对象,沟通更有针对性。这个状态下,数据团队应该已经产生,并且可以主动的主导数据建设,一方面开始统一和整体的进行日志规范,另一方面也让让日志更好的服务于数据需求。
到了资本主义社会,整个沟通链条中又增加了数据仓储工程师的角色,凸显了对数据仓储的重视。绝大多数情况下,数据仓库工程师和数据工程师为同一人,只是同时肩负了两个角色。此时数据仓库建设水到渠成,对于协同的各方相对比较透明,阻力较小,数据仓库建设负面效应降至较低状态。
来到共产主义社会,高玉石称之为“数据仓库+”。在他看来,所谓数据仓库+,算是借互联网+的一个概念,核心应该是囊括数据一致性,及时性,完整性和合理性等在内的数据质量体系建设;他已经越过了据仓库这类数据架构的建设,进入到数据质量这种更追求数据精致性的建设。个人,只是经历了社会主义,也就是共产主义初期,在这个阶段,感觉才是刚刚开始,数据质量建设任重且远美丽说,目前正在经历从封建社会到资本主义社会的进阶,同时兼顾一些社会主义温饱的建设,后面会在数据质量建设部分中见到。
不考虑共产主义社会这个阶段,从数据仓库的角度来看,整个基础数据建设演进的过程就是一个中小型互联网公司数据仓库顺畅的建设方案,只是相对于不同的公司,可能起点不一样,速度不一样。这种方式既能在各个阶段快速灵活的支持到各种需求,又能规避传统IT数据仓库建设的长周期,同时某种程度能实现底层切换相对于需求方透明。
------------------------------------------------------------------------------------------进入技术正题---------------------------------------------------------------------------
▲图:美丽说数据仓库+数据质量建设的宏观架构,右侧是数据仓库,左侧是数据质量中心
数据仓储建设的几个层级
一、基础层
扩展规范:数据的扩展,比如ip增加地域;
数据标注:比如spam日志标示;
二、中间层
一致性:含义一致、清晰规则一致(格式化,同名不同意);
维度模型:设计一些什么样的数据模型满足主题需要;
三、报表层
主题划分:和中间层对应,一样的;
指标唯一:同一个指标,一个出口输出;
数据一致:从数据仓库报表层取出的统一指标的不同维度的数据应该是一致的;
数据质量建设,主要包括:
1、元数据管理
2、日志扫描
3、日志规范流程
4、业务规范流程
5、血统分析
转自:http://tech.it168.com/a2015/0417/1721/000001721358.shtml