数据模型篇:二、阿里巴巴数据整合及管理体系

阿里巴巴数据整合及管理体系


文章目录

  • 阿里巴巴数据整合及管理体系
  • 一、概述
      • 1.1、定位和价值
      • 1.2、体系架构
  • 二、规范定义
      • 2.1、名词术语解释
      • 2.2、指标体系
        • 指标类型
        • 操作细则


OneData 即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下,构建统一、规范、可共的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。借助统一化数据整合及管理的方法体系,我们构建了阿里巴巴的数据公层,并可以帮助相似的大数据项目快速落地实现。下面重点介绍OneData体系和实施方法论。

面对爆炸式增长的数据,如何建设高效的数据模型体系,对这些数据进行有序和有结构地分类组织存储,避免重复建设和数据不一致性,保证数据的规范性, 一直是大数据系统建设不断追求的方向

一、概述

阿里巴巴集团大数据建设方法论的核心 :从业务架构设计模型设计如何快速上手工作的核心),从数据研发数据服务数仓的发展核心:以数据服务为核心,比如数据质量和数据治理提升我们数据服务的准确度,数据产品提升我们数据可视化服务的体感),做到数据可管理 、可追溯、可规避重复建设。目前,阿里巴巴集团数据公共层团队已把这套方法论沉淀为产品,以帮助数据 PD 、数据模型师和 ETL 工程师建设阿里的大数据。这一体系包含方法论以及相关产品。

1.1、定位和价值

建设统一的、规范化的数据接人层( ODS )和数据中间层( DWD和DWS ),通过数据服务数据产品,完成服务于阿里巴巴的大数据系统建设 ,即数据公共层建设。提供标准化的( Standard )、共享的( Shared )、数据服务( Service )能力,降低数据互通成本,释放计算、存储、人力等资源,以消除业务和技术之痛。

1.2、体系架构

数据模型篇:二、阿里巴巴数据整合及管理体系_第1张图片

业务板块:由 于阿里巴巴集团业务生态庞大,所以根据业务的属性划分出几个相对独立的业务板块,业务板块之间的指标或业务重叠性较小。如电商业务板块涵盖淘系、 系和 li Exp ess 系等。
规范定义: 阿里数据业务庞大,结合行业的数据仓库建设经验和阿里数据自身特点,设计出的一套数据规范命名体系,规范定义将会被用在模型设计中。后面章节将会详细说明。
模型设计: 以维度建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实(进行规范定义)。同时,在落地表模型时,基于阿里自身业务特点 设计出一套表规范命名体系。后面章节将会详细说明。

二、规范定义

规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间周期、派生指标。
数据模型篇:二、阿里巴巴数据整合及管理体系_第2张图片

2.1、名词术语解释

  1. 业务板块:比数据域更高维度的业务划分方法,适用于庞大的业务系统。

  2. 数据域:数据域即主题域,用于存放同一业务板块内不同意义的指标。一个业务板块会划分出多个数据域,一个数据域只能归属于一个业务。指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程可以概肯为 个个不可拆分的行为事件,在业务过程之下,可以定义指标,维度是指度量的环境,如买家下单事件,买家是维度,为保障整个体系的生命力,数据域是需要抽象提炼,并且长期维护和更新的,但不轻易变动。在划分数据域时 既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域。
    我理解的数据域(主题域):业务域根据业务过程划分,业务过程梳理为了让我们更清晰整个业务的流程,数据域划分也是基于整个业务中间有什么实体,整个业务过程可以抽象为几个大类,来划分主题域。主题域的划分离不开业务过程,主题域是对业务过程的抽象分类汇总,一般数据域7-8个最好。互联网时代的业务过程并不是一个单纯的从上到下的直线,很多分支和循环。
    数据域划分:比较常用的有:用户、渠道、营销、流量、交易、财务、商品
    核心主题域;人、货、厂

  3. 业务过程:业务过程即企业的业务活动事件,通常为不可拆分的事件,是一个或者多个业务对象在某个时间或时间段,为了达成某种目的所进行的活动或者是某种活动的结果。

  4. 维度:维度建模由Ralph Kimball提出。维度模型主张从分析决策的需求出发构建模型,为分析需求服务。维度是度量的环境,是我们观察业务的角度,用来反映业务的一类属性。属性的集合构成维度,维度也可以称为实体对象。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。

  5. 属性(维度属性):维度所包含的表示维度的列称为维度属性。维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。

  6. 度量:在维度建模中,将度量称为事实,将环境描述为维度,维度是用于分析事实所需要的多样环境。度量通常为数值型数据,作为事实逻辑表的事实。

  7. 指标:指标分为原子指标和派生指标。原子指标是基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,是具有明确业务含义的名词,体现明确的业务统计口径和计算逻辑,例如支付金额。
    原子指标=业务过程+度量。
    派生指标=时间周期+修饰词+原子指标,派生指标可以理解为对原子指标业务统计范围的圈定。

  8. 业务限定:统计的业务范围,筛选出符合业务规则的记录(类似于SQL中where后的条件,不包括时间区间)。

  9. 统计周期:统计的时间范围,例如最近一天,最近30天等(类似于SQL中where后的时间条件)。

  10. 统计粒度:统计分析的对象或视角,定义数据需要汇总的程度,可理解为聚合运算时的分组条件(类似于SQL中的group by的对象)。粒度是维度的一个组合,指明您的统计范围。例如,某个指标是某个卖家在某个省份的成交额,则粒度就是卖家、地区这两个维度的组合。如果您需要统计全表的数据,则粒度为全表。在指定粒度时,您需要充分考虑到业务和维度的关系。统计粒度常作为派生指标的修饰词而存在。

  11. 维度逻辑表:丰富维度的属性信息形成的逻辑表。通过维度逻辑表可以设计及加工处理公共对象明细数据,以便提取业务中对象的明细数据。

  12. 事实逻辑表:用于描述业务过程的详细信息。通过创建事实逻辑表可以设计及加工处理公共事务明细数据,以便提取业务中事务的明细数据。

2.2、指标体系

本文在讲述指标时,会涵盖其组成体系(原子指标、派生指标、修饰类型、修饰词、时间周期),将它们作为一个整体来解读。

指标类型

- 原子指标 (聚合)

原子指标指的是基于业务过程的度量值,顾名思义是不可以在进行拆分的指标
核心功能:对指标的聚合逻辑进行了定义

原子指标、修饰类型及修饰词,直接归属在业务过程下,其中修饰词继承修饰类型的数据域。

  三要素
      1. 业务过程
      2. 度量值
      3. 聚合逻辑

 SELECT SUM(A) FROM Z GROUP BY C;
 SELECT SUM(B) FROM Z GROUP BY C;

- 派生指标 (筛选)

派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到

数据模型篇:二、阿里巴巴数据整合及管理体系_第3张图片

派生指标可以选择多个修饰词,修饰词之间的关系为“或”或者“且”,由具体的派生指标语义决定。
派生指标唯一归属一个原子指标 ,继承原子指标的数据域, 与修饰词的数据域无关。

事务型指标:对业务活动进行衡量的指标。
存量型指标:对实体对象(如商品、会员)某些状态的统计。
SELECT SUM(A) AS SUM_A FROM Z WHERE D = 'X' GROUP BY C;
SELECT SUM(B) AS SUM_B FROM Z WHERE D = 'X' AND E = 'Y' GROUP BY C;

- 衍生指标(逻辑计算)

复合型指标:在事务型指标和存量型指标的基础上复合而成的。
SELECT SUM_A/SUM_B FROM TEMP;

操作细则

  1. 派生指标的种类

    派生指标可以分为 事务型指标、存量型指标和复合型指标。按照其特性不同,有些必须新建原子指标,有些可以在其他类型原子指标的基础上增加修饰词形成派生指标。

  • 事务型指标:是指对业务活动进行衡量的指标。例如新发商品数、重发商品数、新增注册会员数、订单支付金额,这类指标需维护原子指标及修饰词,在此基础上创建派生指标。(可累加)
  • 存量型指标:是指对实体对象(如商品、会员)某些状态的统计。例如商品总数、注册会员总数,这类指标需维护原子指标及修饰词,在此基础上创建派生指标,对应的时间周期 般为“历史截至当前某个时间”。(不可累加)
  • 复合型指标:是在事务型指标和存量型指标的基础上复合而成的。例如浏览 UV-下单买家数转化率 有些需要 建新原子指标,有些则可以在事务型或存量型原子指标的基础上增加修饰词得到派生指标。
  1. 复合型指标的规则
  • 比率型:创建原子指标,如 TR 、浏览 UV 下单买家数转化率、满意率等。例如,“最近 天店铺首页 TR”,原子指标为“ CT ”,时间周期为“最近 天”,修饰类型为“页面类型”,修饰词为“店铺首页”。
  • 比例型:创建原子指标,如百分比 、占 比。例如“最近 天无线支付金额占比”,原子指标为“支付金额占比”,修饰类型为“终端类型”,修饰词为“无线”。
  • 变化量型:不创建原子指标,增加修饰词,在此基础上创建派指标。例如,“最近 天订单支付金额上 天变化量”,原子指标为“订单支付金额”,时间周期为“最近 天”,修饰类型为“统计方法”,修饰词为“上 天变化量”。
  • 变化率型:创建原子指标。例如,“最近 天海外买家支付金额天变化率”,原子指标为“支付金额变化率”,修饰类型为“家地域”,修饰词为“海外买家”。
  • 统计型: (均值、分位数等)不创建原子指标,增加修饰词,在此基础上创建派生指标;在修饰类型 “统计方法”下增加修饰词,如人均、日均、行业平均、商品平均 90 分位数 70 分位数等。例如,“自然月日均 UV”,原子指标为“UV”,修饰类型为“统计方法”,修饰词为“日均”。
  • 排名型:创建原子指标, 一般为 top_xxx xxx ,有时会同时选择rank_top_xxx _xxx 组合使用。创建派生指标时选择对应的修饰词如下:
    • 统计方法(如降序、升序)。
    • 排名名次(如 TOP 10 )。
    • 排名范围(如行业、省份、一级来源等)。
    • 根据什么排序(如搜索次数、 PV )。

你可能感兴趣的:(大数据,人工智能,数据库)