数仓(DW)的架构

文章目录

    • 事实表
      • 分:事务型事实表,周期性快照事实表,累计快照事实表
    • 维度表
      • 维度表设计方法
    • 星型模型和OLAP多维数据库
    • Kimball的数仓架构
    • 独立数据集市架构
    • 辐射状企业信息工厂Inmon架构
    • 混合架构

事实表

每行数据对应的是一个粒度的事件。
例子:订单表中的一条数据是:一个订单code,其他的订单信息。订单细表中的一条数据是:一个订单code,多个子订单code,其他的订单信息

分:事务型事实表,周期性快照事实表,累计快照事实表

事务事实表的一行对应空间或时间上某点的度量事件,最细粒度的数据
周期快照事实表中的每行汇总了发生在某 一标准周期 ,如某一天 、某周 、某月的多个 度量事件 。粒度是周期性的 ,而不是个体的事务 。周期快照事实表通常包含许多事实,因为任何与事实表粒度 一致的度量事件都是被允许存在的
累积快照事实表的行汇总了发生在过程开始和结束之间可预测步骤内的度量事件。
累计快照适用于较短周期,有着明确的开始和结束状态的过程,如一个订单执行的过程,并记录过程中每个步骤的执行时间,使分析人员对执行的过程有整体的把握。周期快照事实表记录上每个步骤的执行时间是逐步建立的,随着执行的过程逐步更新的事实表中。

维度表

趋向于少行多列。每个维度表都由单一的主键定义,用于与事实表关联

维度表设计方法

第一步:选择维度或新建维度。作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。
第二步:确定主维表。此处的主维表一般是 ODS 表,直接从业务系统同步而来。例子:订单表中的数据
第三步:确定相关维表。数据仓库是业务源系统的数据整合,不同业务系统或者同一业务系统中的表之间存在关联性。
第四步:确定维度属性。第一 :从主维表中选择维度属性或生成新的维度属性;第二:从相关维表中选择维度属性或生成新的维度属性。

星型模型和OLAP多维数据库

星型模型:在关系型数据库中实现的维度模型。当所有的维度表都是和事实表直接相连
OLAP(联机分析处理)多维数据库:在多维数据库环境中实现的维度模型
雪花模型:有多个维度表没有直接和事实表相连,而是通过其它的维度表,间接的连接在事实表上
星座模型:星型模型的扩展。有多张事实表,不同事实表之前共享维度表
OLTP(联机事务处理):传统的关系型数据库,基本日常的事务处理,数据量不大,但是实时性要求高
数仓(DW)的架构_第1张图片
数仓(DW)的架构_第2张图片
数仓(DW)的架构_第3张图片

Kimball的数仓架构

源系统的数据,经过ETL(获取,转换,加载)[Extract Transformation and Load],按照业务线建立最小粒度的事实表,再建立维表,形成数据集市,搭建数仓
数仓(DW)的架构_第4张图片

独立数据集市架构

集团的各个子公司或是公司的各个大部门之间大多会使用这种架构。
可以快速的搭建完成,成本较低。但是各个部门之间的数据不一致可能会造成结论不一样,导致新问题的产生
数仓(DW)的架构_第5张图片

辐射状企业信息工厂Inmon架构

是自上而下按照主题建立数仓,如crm,kcrm,ehr,oa等建立不同的主题。新开发主题就继续增加
数仓(DW)的架构_第6张图片

混合架构

数仓(DW)的架构_第7张图片

你可能感兴趣的:(数仓,数据仓库)