1.数据仓库定义

数据仓库之父William H.Inmon给出的定义是:“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,用于支持管理决策”。

概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业决策所需信息。数据仓库也常常被看做一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和启发式查询、分析报告和决策制定。


2.从数据库到数据仓库

从如下几个方面看数据库(DB)到数据仓库(DW)的演变与发展:

1)应用驱动

(1)数据太多,信息贫乏

企事业单位建立了大量的数据库,数据越来越多,而辅助决策信息却很贫乏,如何将大量数据转化为辅助决策信息成了研究热点

(2)异构环境数据的转换和共享

由于各类数据库产品的增加,异构环境的数据也随之增加,如何实现异构环境数据的转换和共享也成了研究热点

(3)由事务处理转变为支持决策

数据库用于事务处理,若要达到辅助决策,则需要更多的数据

2)新技术增长点

(1)数据库用于事务处理,数据仓库用于决策分析。事务处理功能单一,数据库完成事务处理的增、删、改、查操作。决策分析要求数据较多。数据仓库需要存储更多的数据,不需要修改数据,主要提取综合数据的信息,以及分析预测数据的信息。

(2)数据库保持事务处理的当前状态,数据仓库同时保存过去和当前的数据。数据库中数据随业务的变化一直在更新,总保存当前的数据。数据仓库中数据不随时间变化而变化,保留历史数据和当前数据。

(3)数据仓库是对大量数据库的集成。数据仓库的数据不是数据库的简单集成,而是按决策主题,将大量数据库中的数据进行重新组织,统一编码进行集成。如银行数据仓库数据是由储蓄数据库、信用卡数据库、贷款数据库等多个数据库按“用户”主题进行重新组织、编码和集成而建立的。

(4)数据库的操作比较明确,操作数据量少。数据仓库操作不明确,操作数据量大。


3.数据仓库的基本概念

1)外部数据源

从系统外部获取的与分析主题相关的数据

2)数据抽取

数据仓库按分析主题从业务数据库抽取相关数据的过程。现有的数据仓库产品几乎都提供关系型数据接口,提供抽取引擎以从关系型数据中抽取数据。

3)数据清洗

在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS(Decision Support System,决策支持系统)决策的正确性。

4)数据转换

将不同格式的数据转换成统一的数据格式。

5)数据加载

把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。

6)元数据

元数据是关于数据的数据,存在于程序和数据中,是信息处理环境的一部分。

元数据位于数据仓库的上层,能够记录数据仓库中对象的位置。典型的,元数据记录程序员所知的数据结构、DSS分析员所知的数据结构、数据仓库的源数据、数据载入数据仓库时的类型和格式转换、数据模型、数据模型和数据仓库的关系以及抽取数据的历史记录等。

7)数据集市

把面向企业中的某个部门或主题而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市(data mart)。数据仓库面向整个企业,而数据集市则面向企业中的某个部门。数据仓库存放企业的整体信息,而数据集市只存放某个主题所需要的信息,其目的是减少数据处理量,使信息的利用更快捷、更灵活。

8)数据粒度

粒度是指数据仓库的数据存储单位中保存数据的细化程度或综合程度的级别。细化程度越高,粒度级别就越低。


4.数据仓库的体系结构

在体系结构多种理论中,着眼于功能的“三层结构”理论得到最广泛的认可。即从各部件的功能来分析,数据仓库在逻辑上可以分为3个层次:数据获取/管理层、数据存储层、数据分析/应用层。


5.数据仓库与数据挖掘的关系

数据仓库提供来自种类不同的信息系统的集成化和历史化的信息,为有关部门或企业进行全局范围的战略决策和长期趋势分析提供了有效支持。数据挖掘是一种有效利用信息的工具,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析、组织原有的数据,进行归纳性的整理,从中挖掘出潜在的模式,预测客户行为,帮助决策者的决策。

数据挖掘是一个相对独立的系统,可以独立于数据仓库系统而存在,数据仓库为数据挖掘打下了良好的基础,包括数据抽取、数据清洗整理、数据一致性处理等,但数据仓库不是数据挖掘的必要条件。