数据仓库之缓慢变化维解决方案

目录

  • 1-背景
  • 2-解决方案
  • 2.1-重写维度值
  • 2.2-插入新的维度行
  • 2.3-添加新的维度列
  • 2.4-拉链表处理

1-背景

众所周知,虽然维度表属性相对稳定,但是并不是一成不变的,尽管相当缓慢,维度值仍会随时间而变化。比如商品类目的改变,医院等级的改变。

在一些情况下,保留历史数据没有什么分析价值,而在另一些情况下,保留历史数据是非常重要的。

2-解决方案

2.1-重写维度值

在维度表中,仅需以当前值重写先前存在的值,不需要触碰事实表。

缺点:如果业务需要准确的跟踪历史变化,这种方案是没法实现的,并且在以后想改变是非常困难的。
数据仓库之缓慢变化维解决方案_第1张图片
修改后表数据:
数据仓库之缓慢变化维解决方案_第2张图片

2.2-插入新的维度行

插入新的维度行。采用此种方式,保留历史数据,
维度值变化前的事实和过去的维度值关联,维度值变化后的事实和当前的维度值关联。

缺点:虽然此方案能够区分历史情况,但是该方式不能将变化前后记录的事实归一为变化前的维度或者归一为变化后的维度
数据仓库之缓慢变化维解决方案_第3张图片

2.3-添加新的维度列

有些是只保留最新的维度值和最近的维度值,也有的是维度值一有变化就新增一个属性字段。都不是很好的解决方案

变化前:
数据仓库之缓慢变化维解决方案_第4张图片

变化后:
在这里插入图片描述

2.4-拉链表处理

这是精确跟踪缓慢变化维度属性的主要技术,因为新维度行能够自动划分事实表的历史,所以这是一项非常好的技术。

变化前:
在这里插入图片描述
变化后:
数据仓库之缓慢变化维解决方案_第5张图片
此处直接介绍缓慢变化维处理,拉链表在本篇文章中没有详细讲解,如想看请参考:
拉链表的详细实现过程
这篇文章,定会让你受益匪浅!!!!

你可能感兴趣的:(hive和数据仓库(离线),hive,sql,大数据,数据仓库,etl)