读《大数据之路-阿里巴巴大数据实践》一

本书可以作为进入大数据的一本入门书(不涉及技术问题,仅涉及使用场景),可以比较快速的了解大数据在阿里(其他公司同理)的使用方式和场景。其中技术内容不多,场景和想法比较多。书中最精华部分还是关于数据模型设计相关内容,阿里的数据模型也是经历了多次迭代才成为现在的样子。

阿里巴巴的大数据系统的体系架构图,有利于系统全面了解阿里的数据平台。划分为数据采集、数据计算、数据服务及数据应用四层,后面的内容就是围绕这张图展开的。

读《大数据之路-阿里巴巴大数据实践》一_第1张图片

跨行业领域,复杂多样的业务规则,面对多业务部门的需求,如何更好的搭建指标体系?

阿里巴巴OneData模型设计理论及实施过程

设计总则:首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功。其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度。再次,对报表需求进行抽象整理出相关指标体系,使用 OneData 工具完成指标规范定义和模型设计。最后,就是代码研发和运维。本文将会重点讲解物理模型设计之前(含)步骤的内容 。

实施工作流如图所示:


读《大数据之路-阿里巴巴大数据实践》一_第2张图片

(1)数据调研

业务调研

整个阿里集团涉及的业务涵盖电商、数字娱乐、导航(高德)、 移动互联网服务等领域。各个领域又涵盖多个业务线,如电商领域就涵盖了 C 类(淘宝、天猫、天猫国际)与 B 类(阿里巴巴中文站、国际站 、速卖通)业务。数据仓库是要涵盖所有业务领域,还是各个业务领域独自建设,业务领域内的业务线也同样面临着这个问题。所以要构建大数据数据仓库,就需要了解各个业务领域、业务线的业务有什么共同点和不同点 ,以及各个业务线可以细分为哪几个业务模块,每个业务模块具体的业务流程又是怎样的。业务调研是否充分,将会直接决定数据仓库建设是否成功 。

需求调研

可以想象一下,在没有考虑分析师、业务运营人员的数据需求的情况下,根据业务调研建设的数据仓库无疑等于闭 门造车。了解了业务系统的业务后并不代表就可以进行实施了,此刻要做的就是收集数据使用者的需求,可以去找分析师、业务运营人员了解他们有什么数据诉求,此时更多的就是报表需求。需求调研的途径有两种: 一是根据与分析师、业务运营人员的沟通(邮件、 IM )获知需求: 二是对报表系统中现有的报表进行研究分析 。通过需求调研分析后,就清楚数据要做成什么样的。很多时候,都是由具体的数据需求驱动数据仓库团队去了解业务系统的业务数据,这两者并没有严格的先后顺序。举例 : 分析师需要了解大淘宝(淘宝、天猫、天猫国际) 一级类目的成交金额。当获知这个需求后,我们要分析根据什么(维度)汇总,以及汇总什么(度量),这里类目是维度,金额是度量:明细数据和汇总数据应该怎样设计?这是一个公用的报表吗?是需要沉淀到汇总表里面,还是在报表工具中进行汇总?

(2)架构设计

数据域划分

数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如下单、支付、退款。为保障整个体系 的生命力,数据域需要抽象提炼,并且长期维护和更新,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中或者扩展新的数据域。

构建总线矩阵

在进行充分的业务调研和需求调研后,就要构建总线矩阵了。需要做两件事情 :明确每个数据域下有哪些业务过程;业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。

(3)规范定义

规范定义主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。

(4)模型设计

模型设计主要包括维度及属性的规范定义,维表、明细事实表和汇总事实表的模型设计。略。

(5)总结

OneData 的实施过程是一个高度迭代和动态的过程, 一般采用螺旋式实施方法。在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审。在架构设计、规范定义和模型设计等模型实施过程中,都会引人评审机制,以确保模型实施过程的正确性。

你可能感兴趣的:(读《大数据之路-阿里巴巴大数据实践》一)