数据仓库——维度表一致性

数据仓库基础笔记思维导图已经整理完毕,完整连接为:
数据仓库基础知识笔记思维导图

维度一致性问题

从逻辑层面来看,当一系列星型模型共享一组公共维度时,所涉及的维度称为一致性维度。当维度表存在不一致时,短期的成功难以弥补长期的错误。
维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。

造成横向钻取失败的原因

  • 维度结构的差别,因为维度的差别,分析工作涉及的领域从简单到复杂,但是都是通过复杂的报表来弥补设计层面带来的缺点,并且也存在许多问题:
    • 开展横向钻取工作需要特定的知识
    • 除了最具有经验的开发者外,大多数人都不肯呢个会采用这类方案去比较过程
    • 运用不当时,方案会有出现不一致的风险并形成不正确的结果
    • 方案阻碍了为特定报表工具横向钻取报表的自动生成
  • 维度内容的差异
  • 一致性的基本要求,结构相同,维度表必须有相同的维度列集合。内容相同,维度列存在的值必须具有相同的表示形式。

维度一致性的类型

  • 共享维度,来那个维度共享相同的逻辑维度表时,可以时同一个维度表,或者两个或更多个等价表组成。
    • 共享的维度表支持其中任意的维度属性横向钻取相关的事实表,结构和内容相同的不同维度表也支持对事实的横向钻取,完全相同的副本也是一致的。
    • 当一个共享维度存在多个副本时,需要单独的ETL过程负责处理新的和发生改变的数据
    • 共享维度的另一个版本允许副本包含维度中行的子集,通常与表示实体的子类对应,这一子嘞可以被额外的特殊子类所修饰
  • 一致性上卷,保持一致性并不需要维度表完全相同,表的维度属性时其他表的维度属性的子集,公共维度属性具有相同的结构与内容
    • 确保一致性上卷实例值与基本维度的实例值匹配的最好方式时制定基本维度作为他的来源,另一种方式是,选择建立单独的程序来处理数据源同时处理基本维度和上卷中涉及的新增和发生变化的行,有时可以允许上卷维度包含除代理键之外相同的行
  • 一致的退化维度,对维度进行退化,存储在事实表中,公共维度谁能狗必须有相同的结构和内容,并且需要确保每个表中出现相同值的组合
  • 重叠维度。
    • 交叉属性,当两个表共享一组公共属性,当两个维度重叠时,将通过他们的公共属性保持一致性,公共属性必须共享相同的内容和结构。
    • 生成第三个表来避免重叠,删除两个表中的公共属性,并将它们放在第三个维度表中
    • 生成第三个表并跟踪关系,如果问题中的维度与其重叠属性之间的关系随着时间会发生改变,并获得特定时间点上的维度和重叠属性关系的描述是非常重要的,第三个维度建立可采用跟踪其关系的事实表来补充
    • 生成第三个表作为支架表,建立与其他两个表直接关联的第三个维度表

规划一致性

一致性维度是维度建模的关键,缺乏一致性,就难以对数据仓库开展横向钻取分析,将失去协同增效的可能,并且将会形成信息孤岛。

一致性设计

更好的描述一致性维度方式是采用矩阵图,列代表核心一致性维度,行代表不同的事实表,可通过在适当的交叉点放置检查标志来阐明一致性。

增量实现

一致性矩阵可以作为实现蓝图,指明了所有事实表连接的位置,这允许独立地实现每一个事实表,并能可信地与那些已经存在的事实表协同工作。在完成对维度框架的构建后,在增量实现时可不用担心存在不一致问题。
另一方面,如果在开发一致性维度集之前实现增量开发的方法,这样的框架将不可避免地陷入不一致的陷阱。

结构与一致性

维度数据仓库

  • 包含一致性设计的策略计划,在维度数据仓库中,维度设计是战略活动,一致性维度是这种设计的中心特征,提供了企业级的能力。
  • 现实的压力,对于那些才用了维度数据仓库的组织来说,这种愿景需要经受实践的考验。当前分析系统中可能包括没有被集成的,缺乏一致性的遗留系统。并且商业压力也会影响一致性维度设计。

你可能感兴趣的:(背诵,数据仓库)