大数据之路、阿里巴巴大数据实践读书笔记 --- 第十章、维度设计

零、写在前面

此章节是我读到现在较难懂的一部分,如果数据仓库水平、处理的数据量、业务种类并不多的情况下,很多情况还是较难理解的,希望大家可以对不懂的地方多读些,欢迎交流讨论;

内含拉链表,以及极限压缩等部分,对于数据仓库模型的优化很有帮助;

 

一、维度设计基础

  • 维度的基本概念

    • 维度是维度建模的基础和灵魂;

    • 在维度建模中,将度量称为“事实”,将环境称为“维度”;

    • 维度所包含的表示维度的列,称为维度属性。维度属性是查询约束条件、分组和报表表亲啊生成的基本来源,是数据易用性的关键。

    • 例如:在查询请求中,获取某类目的商品、正常状态的商品等,是通过约束商品类目属性和商品状态属性来实现的;统计淘宝不同商品类目的每日交易金额,是通过商品维度的类目属性进行分组的;我们在报表中看到的类目、BC类型(B指天猫,C指集市)等,都是维度属性。所以维度的作用一般是查询约束、分类汇总以及排序等;

    • 获取维度或维度属性的方式:

      • 可以在报表中获取;

      • 可以在喝业务人员的交谈中发现维度或维度属性;

    • 维度使用主键标识其唯一性,主键也是确保与之相连的任何事实表之间存在引用完整性的基础。

    • 主键有两种:

      • 代理键;(不具有业务含义的键,自增ID)

      • 自然键;(具有业务含义的键,商品ID)

 

  • 维度的基本设计方式

你可能感兴趣的:(数据仓库,大数据挖掘与大数据应用案例)