数据仓库 (Data Warehouse,DW)

目录

1、基本概念

2、数据仓库特点

2.1 面向主题 Subject Oriented 

2.2 集成 Integrated

2.3 非易失 Non-Volatile

2.4 反应历史变化 TimeVariant

3、数据仓库 VS 数据库

4、数据仓库分层架构

4.1 缓冲层(数据接入层)

4.2 贴源层(ODS层)

4.3 基础明细层(DWD层)

4.4 轻度汇总层/数据中间层 (DWM层)

4.5 数据服务层(DWs层)

4.6 数据集市(DM)

5、数据仓库分层的优点


1、基本概念

        数据仓库是一个面向主题的、集成的、非易失的、 反应历史变化的、用来支持企业管理决策的数据集合。

2、数据仓库特点

2.1 面向主题 Subject Oriented 

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

数据仓库中的数据是按照一定的主题域进行组织。

不同类型的企业,主题集合往往不同。

2.2 集成 Integrated

数据仓库中的数据是来源于多个数据源的集成。

要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。

构建形式一致、语义一致的数据集合。

2.3 非易失 Non-Volatile

数据一旦进入数据仓库,一般情况下会被长期保存。

数据仓库中保存的数据是一系列历史快照,一般不做更新、删除。

用户只能通过分析工具进行查询和分析。

2.4 反应历史变化 TimeVariant

数据仓库的数据是随时间而变化的,会定期接收新的集成数据,从而反应出最新的数据变化。

但稳定的数据是以只读格式保存,且不随时间改变。

3、数据仓库 VS 数据库

        数据库是面向事务的设计,设计目的是为了捕获数据一般存储在线交易数据,并且在设计时尽量避免几余,常采用符合范式的规则来设计。

        数据仓库是面向主题设计的,设计目的是为了分析数据,一般存储的是历史数据,但在设计时有意引入几余,采用反范式的方式来设计。

数据仓库 (Data Warehouse,DW)_第1张图片

4、数据仓库分层架构

 数仓基本分层结构

数据仓库 (Data Warehouse,DW)_第2张图片

4.1 缓冲层(数据接入层)

基本概念:

        业务系统与贴源层之间的临时缓冲区,用于临时接入业务系统的原始细节数据。

        是否设立缓冲层,视情况而定。

        细粒度:与业务系统保持一致的原始细节数据,不做任何处理。

作用:

        当贴源层需做简单清洗,且数据导入速度较快时,缓冲层用于临时性地快速接收业务数据。

4.2 贴源层(ODS层)

基本概念:

        ODS: Operational DataStore,操作数据存储,一个面向主题的、集成的、可变的、当前的细节数据集合用于支持即时性、操作型、集成性的信息需求。

        业务系统和基础明细层之间的过度区,用于存储业务系统的当前原始细节数据。

作用:

        在业务系统和数据仓库之间形成一个隔离层。

        转移一部分业务系统细节查询的功能。

        完成数据仓库中不能完成的一些功能。

4.3 基础明细层(DWD层)

基本概念:

        DWD: Data WarehouseDetail,数据仓库的中间层,从ODS层获取数据,按主题进行组织,经过清洗、校验、转换、合并等规范化处理形成业务数据的完整视图。

        一般采用维度建模,以星型模型为主。

作用:

        为数据分析(宏观趋势性分析、在线交互式分析)提供最完整的基础明细数据支撑。

4.4 轻度汇总层/数据中间层 (DWM层)

基本概念:

        DWM: Data WarehouseMiddle, 面向业务分析需求,对基础明细层的细节数据进行轻度(细粒度)的聚合、汇总和统计。

        一般由明细层按照一定的业务需求生成轻度汇总表。

作用:

        对细粒度的基础汇总指标进行预计算,减轻后期数据分析的压力。

4.5 数据服务层(DWs层)

基本概念:

        DWS: Data WarehouseService, 针对企业级宏观主题构建相关的多个主题域模型,多从基础明细/轻度汇总层中获取数据,按主题模型进行数据组织。

        通常为宽表。

作用:

        为业务分析应用、数据集市构建提供直接的数据支撑。

4.6 数据集市(DM)

基本概念:

         DM: Data Mart,数据集市是面向单一业务主题域(如销售、财务等)、为特定业务部门构建的小规模数据集合。

        数据集市通常是数据仓库的子集。

作用:

        数据源可以是数据仓库(从属型数据集市),也可以是业务系统(独立型数据集市)。

        用于在线交互式分析(秒级响应)。

5、数据仓库分层的优点

        把复杂问题简单化。可以将一个复杂的任务分解成多个步骤来完成,每层只处理单一的步骤。

        减少重复开发。规范数据分层,通过使用中间层数据,可以大大减少重复计算量,增加计算结果的复用性。

        隔离原始数据。使真实数据与最终统计数据解耦。

        用空间换时间。通过大量的预处理来提升应用系统的用户体验、分析效率。


你可能感兴趣的:(离线数仓,数据仓库,大数据,数据库,分布式,数据分析)