Data Vault初探(一) —— 基础

摘自:《Pentaho Kettle 解决方案: 使用PDI构建开源ETL解决方案》

        Data Vault(DV)模型是用于企业级的数据仓库建模。由Dan Linstedt在20世纪90年代提出(http://www.danlinstedt.com)。在最近几年,Data Vault模型获得了很多关注,并在BI社区里拥有了一批追随者。
        Dan Linstedt将Data Vault模型定义如下:
        Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方法。其设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,它是一种专为企业级数据仓库量身定制的建模方式。
        从上面的定义,可以看出Data Vault既是一种数据建模的方法论,又是构建企业数据仓库的一种具体方法。Data Vault模型由三个模块组成,中心表、链接表、附属表。建模方法论里定义了Data Vault的组成部分和组成部分之间的交互方式。Data Vault的建模方法中还包括了最佳实践,来指导构建企业数据仓库。例如,业务规则应该在数据的下游实现,就是说Data Vault只按照业务数据的原样保存数据,不做任何解释、过滤、清洗、转换。即使从不同数据源来的数据是自行矛盾的(例如同一个客户有不同的地址),Data Vault模型不会遵照任何业务的规则,如“系统A的地址为准”。Data Vault模型会保存两个不同版本的数据,对数据的解释将推迟到整个架构的后一个阶段(数据集市)。

你可能感兴趣的:(Data Vault初探(一) —— 基础)