【大数据之路】第9章阿里巴巴数据整合及管理体系

9.2规范定义

【大数据之路】第9章阿里巴巴数据整合及管理体系_第1张图片

名词术语

  1. 数据域:面向业务分析。既能涵盖目前所有的业务需求,又能在新业务进入时不影响的进入到已有的数据域或扩展新的数据域。
  2. 业务过程:注意不可拆分的行为事件,例如下单、支付、浏览等。就是企业活动中的事件。
  3. 修饰类型:修饰词的概括。例如订单中的支付方式、日志域中的访问终端类型等。
  4. 派生指标:等于原子指标+一个或者多个修饰词+时间周期。派生指标唯一归属一个原子指标。
派生指标可以分为三类:
- 事务型指标:对业务活动进行衡量。例:会员数、订单支付金额等
- 存量型指标:商品总数、注册会员总数等。对应的时间周期一般为“历史截止到当前某个时间”
- 复合型指标:是在事务型指标和存量型指标基础上复合而成的。例如浏览uv-下单买家数转化率。有些需要创建新原子指标,有些则可以在事务型或者存量型原子指标的基础上增加修饰词得到。
  1. 如果遇到同时有两个行为发生,需要多个修饰词生成一个派生指标的情况,则选择时间靠后的行为创建原子指标,选择时间靠前的行为创建修饰词。

9.3 模型设计

阿里巴巴的数据团队把表数据模型分为三层,ODS-操作数据层、CDM公共维度模型层、ADS应用数据层
【大数据之路】第9章阿里巴巴数据整合及管理体系_第2张图片
CDM-公共维度层-DIM:Dimension 一致性维度;对于纬度属性过多、涉及资源较多的维度表,可以适当的拆分为核心表和扩展表。核心表刷新产出时间较早,优先使用。扩展表可以适当的冗余核心表的部分字段,刷新产出时间较晚,适合数据分析人员使用。(命名规则:{project_name}.dim{业务/pub}{维度定义}[_{自定义命名标签}],其中的pub与具体业务无关,各个业务部都可以共用,例如时间维度。)
CDM-明细层设计规范-DWD:Data WarehouseDetail 事务型事实表一般永久保留,周期快照事实表根据业务需求设置生命周期管理。(命名规则:{project_name}.dwd{业务缩写/pub}{数据域缩写}{业务过程缩写}[{自定义表命名标签缩写}]{刷新周期标识}{单分区增量全量标识}。)
CDM-汇总层-DWS:Data Warehouse Summary 默认情况下,离线计算应该包括最近一天(1d)、最近n天(nd)、历史截至当天(td)三个表。存储方式为按天分区(命名规则:{project_name}.dws{业务缩写/pub}{数据域缩写}{数据粒度缩写}[{自定义表命名标签缩写}]{统计时间周期范围缩写}{刷新周期标识}{单分区增量全量标识}。)
ADS-应用数据层:Application Data Store 存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成。

数据域划分举例:

数据域 业务过程示例
会员和店铺域 注册、登录、装修等
商品域 发布、上架等
日志域 曝光浏览等
交易域 加购、下单等
客服和销售域 拜访、培训等

你可能感兴趣的:(大数据)