数据仓库实践杂谈(十六)——渐变维

[目录]

  • 第一章:概述
  • 第二章:整体数据分层
  • 第三章:整体实现框架
  • 第四章:元数据
  • 第五章:ETL
  • 第六章:数据校验
  • 第七章:数据标准化
  • 第八章:去重
  • 第九章:增量/全量
  • 第十章:拉链处理
  • 第十一章:分布式处理增量
  • 第十二章:列式存储
  • 第十三章:逻辑数据模型(数仓模型)
  • 第十四章:数据模型参考
  • 第十五章:维模型
  • 第十六章:渐变维
  • 第十七章:数据回滚
  • 第十八章:关于报表
  • 第十九章:数据挖掘

数据仓库实践杂谈(十六)——渐变维

渐变维也叫缓慢渐变维度。这个概念提出来,其实也就直接意味着,我们分析的角度并不是一成不变,而是会变化的。前面谈增量/拉链的时候,更多讨论“事实”数据的变化。业务每天都在发生这个是必然的。但对应的分析维度也一定会变化。

比如客户信息,某个客户一开始在A城市,但某时间点之后,搬家到了B城市。在跟踪这个客户的消费行为的时候必然要考虑其在不同地区的差异。因此需要记录客户的之前和现在的状态。这种情况可以使用前面提到的拉链表方式,增加数据的有效期间(起止日期)。这也叫Type 2 SCD。其他两种存储方式,个人认为没啥价值。但可以提一下,所谓Type 1则是不保留历史;Type 2则是增加字段保留历史。

这里带来一个主键的问题。一般业务表都有自己的主键,一般称为业务键。业务键在业务系统是唯一的。但在仓库里面,特别是拉链表,同一个客户出现多条记录。这时候,我们会增加一个代理键——无意义的,一般是数字,就是为了表示记录唯一的键。

增加代理键除了满足同一条记录不同有效期之外,也可以解决多个业务系统整合在一起可能存在的主键冲突问题。

代理键的出现,把不同状态的一个实体分成了多条记录,但通过业务键,依然能汇总到同一个实体上。因此,可以实现:

  • 从地区观察,前期数据归于A城市,后期数据归于B城市(假设按客户汇总到地区);
  • 从客户观察,直接通过客户的业务键进行汇总。

对于金融机构,尤其银行来说,机构是很重要的维度或分析角度。但机构偶尔会发生变化,如新设、撤并等;会导致变动时间点前后汇总规则发生变化。正常情况下,变动时间点之前按原规则汇总,时间点之后按新规则汇总。但也有特别的需求,比如机构归属虽然变动了,但按照之前的归属进行汇总和现在的结果进行对比等。

未完待续。

上一篇:数据仓库实践杂谈(十五)——维模型

上一篇:数据仓库实践杂谈(十七)——数据回滚

你可能感兴趣的:(数据仓库实践,数据仓库,数据挖掘,大数据,数据分析)