学习笔记-大数据之路-数据模型篇-数据整合及管理体系-规范定义

第9章 阿里巴巴数据整合及管理体系

  数据模型:如何构建优良的模型,如何优化模型出现的问题
  体系:包含数据模型、分层、主题划分、数据治理、元数据管理、可视化等等

9.1,概述

  阿里大数据建设方法论核心:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理 、可追溯、可规避重复建设

9.1.1,定位及价值

  建设统一的、规范化的数据接入层( ODS )和数据中间层( DWD 和DWS ),通过数据服务数据产品,完成服务于阿里巴巴的大数据系统建设 ,即数据公共层建设。提供标准化的( Standard )、共享的( Shared )、 数据服务( Service )能力,降低数据互通成本,释放计算、存储、人力 等资源,以消除业务和技术之痛。

9.1.2 体系架构

学习笔记-大数据之路-数据模型篇-数据整合及管理体系-规范定义_第1张图片

9.2,规范定义

  规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、派生指标

规范定义例子(非常形象)
学习笔记-大数据之路-数据模型篇-数据整合及管理体系-规范定义_第2张图片

9.2.1 名词术语

名词术语需要多结合例子去熟悉
业务板块:企业层级和业务部门层级(如阿里电商、金融、高德出行就属于不同的业务板块)
数据域:可以理解为主题域,指面向业务分析,将业务过程或者维度进行抽象的集合;
其中 业务过程可以概括为一个个不可拆分的行为事件 ,在业务过程之下, 可以定义指标;
维度是指度量的环境,如买家下单事件,买家是维度;
为保障整个体系的生命力 数据域是需要抽象提炼,并且长期维护和更新的,但不轻易变动;在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中和扩展新的数据域
业务过程:指企业的业务活动事件,如下单、支付、退款都是业务过程。业务过程 是一个不可拆分的行为事件,通俗地讲,业务过程就是企业活动中的事件
时间周期:用来明确数据统计的时间范围或者时间点,如最近30天、自然周、截至当日等
修饰类型:是对修饰词的一种抽象划分,修饰类型从属于某个业务域,如日志域的访问终端类型涵盖无线端、 PC端等修饰词
修饰词:理解为直接简单的口径,指除了统计维度以外指标的业务场景限定抽象 。修饰词隶属于一种修饰类型,如在日志域的访问终端类型下 有修饰词 PC 端、无线端等
度量/原子指标:两个含义相同,其实就是指标基础。 基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含义的名词 ,如支付金额(具体的数值)
维度:描述实体;维度退化,增加分析维度或口径。维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成 一个维度,也可以称为实体对象。维度属于一个数据域,如地理维度(其中包挤国家、地区、省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)
维度属性:维度属性隶属于一个维度。如地理维度里面的国家名称、同家 ID 、省份名称等都属于维度属性
派生指标 :派生指标= 一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。如原子指标:支付金额,最近1天海外买家支付金额则为派生指标(最近1天为时间周期,海外为修饰词,买家作为维度,而不作为修饰词)

9.2.2,指标体系

关键点:派生指标唯一归属一个原子指标 ,继承原子指标的数据域, 与修饰词的数据域无关。
1,基本原则
(1)组成体系之间的关系

  • 派生指标一对一原子指标
  • 派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到
    学习笔记-大数据之路-数据模型篇-数据整合及管理体系-规范定义_第3张图片
    (2)命名约定
      指标命名,尽量使用英文简写,其次是英文,指标英文名太长时,可考虑用汉语拼音首字母命名。
      业务过程,用英文或英文的缩写或者中文拼音简写;中文名:具体的业务过程中文即可
    2,操作细则
    ( 1 )派生指标的种类
    事务型指标:是指对业务活动进行衡量的指标(如新增注册数量)
    存量型指标:是指对实体对象某些状态的统计(如注册人员总数)
    复合型指标:事务型指标和存量型指标的基础上复合而成

我是dyson不只是吹风机,若是对大数据-数据仓库技术感兴趣的可以加我沟通交流,一起进步。VX:daijun1211

ps:若文章侵权、触犯隐私请联系作者删除,谢谢~~

你可能感兴趣的:(大数据之路,大数据,数据仓库)