数据仓库浅谈

数据仓库,Data Warehouse 简称DW

定义:数据仓库就是面向主题的、集成的、相对稳定的、随时间不短变化(不同时间)的数据集合,反映历史变化的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。

目的:支持决策

  • 特点:

  • 面向主题

  • 数据仓库中的数据分为不同的主题域,所以主题,就是决策者关系的某一方面。如保险行业数据仓库中的保单理赔、退保、年金给付等都可以作为一个主题

  • 集成

  • 一个或者多个操作性数据库中的数据,经过ETL工具被抽取过来,在数据仓库中进行集中的按主题分类。这就是仓库的数据集成

  • 非易失

  • 操作性数据库中的数据会经常的被增删改,而数据仓库的数据只是载入,然后提供查询功能。因此数据仓库中的数据更稳定,不易丢失。

  • 随时间变化

  • 数据仓库中存储历史数据,往往是几年前的数据,这些数据随时间不短累计,并且数据仓库中含有很多时间标识。

  • 面向主题跟面向应用是相对应。面向应用是指实现某种功能,数据集合也是其单一功能的数据集。而面向主题是为了实现某个主题而产生的一个或多个的面向应用的数据集合的整合。例如,支付是面向应用的主体,而交易是一个面向主题的主体。交易包含了下单到完成交易一系列操作,而支付只是其中的一环。

  • 集成:数据仓库一个重要的功能就是把不同数据源的数据汇合在一起,按照统一的形式进行集成。比如性别在不同的数据源中可以用男/女或者1/2的形式表示,在数据仓库中可以对其进行统一

  • 相对稳定:数据一般有一定的生命周期,历史数据一般不会再变,可以采用增量的策略进行数据的传输和计算。比如看订单支付成功的相关信息,那么一旦支付成功之后,这个订单的支付成功相关信息就不会再变更,所以此类数据可以按天增量计算

  • 反映历史变化:由于在数据仓库中可以存储历史的信息,那么就可以根据这些历史信息进行数据的分析来反映历史的变化。而操作性数据库只会某些时间段的数据

数据仓库和数据库区别:

  • 数据粒度不同

  • 数据库存储的是操作型数据,是细节性的数据,是当前的数据,反映的是最后的修改结果。数据仓库是分析型的集成挥着汇总的数据,面向主题,保存着数据的所有历史状态

  • 数据生命周期不同。

  • 数据库存的数据的生命周期比较短,不会保存很久的数据。数据仓库则需要历史数据来反映趋势的变化和数据分析。

  • 建模方法不同。

  • 数据可以采用范式建模,不能有冗余。数据仓库的建模方法有DW范式建模(跟数据库的范式建模也不同)和DW维度建模等。可以存在冗余

  • 时间敏感度不同

  • 数据库的数据要求及时性非常高,数据仓库可以容忍数据的一定的延迟

  • 目标不同

  • 数据库主要面向业务处理的,而数据仓库则面向分析用户

数据仓库浅谈_第1张图片
数据库和数据仓库区别.png
数据仓库浅谈_第2张图片
数据库和数据仓库区别差异.png

你可能感兴趣的:(数据仓库浅谈)