数据挖掘系列之一:数据仓库概述

数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。

数据仓库收集了整个组织的主题信息,因此它是企业范围的。数据集市(data mart)是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。

数据仓库非常适合联机分析处理(OLAP)。OLAP操作包括下钻(drill-down)和上卷(roll-up),允许用户在不同的汇总级别观察数据。

数据仓库最早是Inmon W H于1992年提出:数据仓库是Subject-Oriented(面向主题的)、Integrated(集成的)、Time-Variant(随时间变化的,时间变异的)、Non-Volatile(非易失的)一系列用于管理和决策制定的数据集。(参考原文:Building the data bridge: the ten critical success factors of building a data warehouse和EIS and the data warehouse: a simple approach to building an effectivefoundation for EIS)

面向主题的

围绕重要的主题(如顾客、产品、销售等) 组织.
关注决策制定者的数据建模与分析,而不是日常的操作和事务处理.
数据仓库排除对于决策过程无用的数据,提供特定主题的简明视图.

集成的

将多个异种的数据源集成在一起,比如,关系数据库, 一般文件, 联机事务记录;
使用数据清理和数据集成技术,确保命名约定, 编码结构, 属性度量等的一致性。

时变的
数据仓库的时间跨度显著地比操作数据库长,
-操作数据库数据: 当前值数据.
-数据仓库数据: 从历史的角度提供数据 (例如, 过去 5-10 年)
数据仓库中的每个键结构显式或隐式地包含时间元素,但是, 操作数据的键可能包含, 也可能不包含“时间元素”.

非易失的(非易变的)
从操作环境转换过来的数据物理地分离存放。
数据的更新不在数据仓库环境中出现。
-不需要事务处理, 恢复, 和并发控制机制
-只需要两种数据存取操作:数据的初始化装入 和 数据访问(多为读操作,无增删改操作).

Stanford大学的WHIPS(WareHouse Information Prototype at Stanford)提出的数据仓库体系结构(如下图)中,底层是多个信息源,信息源可以是关系型数据或者其他数据,如Flat Files,HTML Docs,Knowledge base,Legacy Data等。包装器部件将信息整理成数据仓库中使用的数据模型,监视器部件负责对本地信息源中需要提取的数据及其变化做自动探测,并把它们报告给集成器。

当一个新的信息源连接到数据仓库或者某信息源状态发生变化,Monitor将新数据或者修改过的数据发给Integrator。Integrator负责把信息installing到DW中,其间可能还需要Filtering,Summary,Merging等操作。

数据仓库中包含大量的历史性信息,而底层的数据源一般不维护这些信息。因此,传统视图反映底层数据,而数据仓库反映底层数据的历史。

数据挖掘系列之一:数据仓库概述_第1张图片

你可能感兴趣的:(数据挖掘)