数据挖掘导论(学习笔记)――2.1数据仓库的概念

2.1数据仓库的概念

20世纪90年代初,数据仓库的创始人Inmon W.H.提出了“数据仓库”的概念:数据仓库是面向主题的、集成的、具有时间特性的、稳定的数据集合,用以支持经营管理中的决策制定过程。

由数据仓库的概念可知,一般数据仓库具有以下4个典型特征:

1)数据仓库面向主题的

2)数据仓库中的数据是集成的

3)数据仓库中的数据是相对稳定的

4)数据仓库中的数据是随时间不断变化的,表现在3个方面:数据仓库随时间变化不断增加新的数据内容;数据仓库随时间变化不断删去旧的数据内容;数据仓库中包含大量的综合数据,这些综合数据很多跟时间有关,会随着时间的变化不断地进行重新综合。

每个主题在数据仓库中一般都是由一组关系表实现的。主题域应该具有:

独立性:主题域可以和其他的主题域有交叉部分,但它必须具有独立内涵,即要求有明确的界限,规定某项数据是否属于该主题。

完备性:要求任何一个与某主题相关的分析要求,都应该能在这一主题中找到该分析处理所要求的一切内容;如果对产品的某一分析要求涉及现存“产品”主题之外的数据,那么就应当将这些数据增加到“产品”主题中来,从而逐步完善“产品”主题。

所谓粒度,是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,级别越低;数据聚合度越高,粒度越大,级别也越高。

粒度划分主要取决于数据仓库每个表中数据的行数。

粒度可分为两种形式:

第一种形式的粒度是对数据仓库中的数据综合程度的一个度量,它既影响到数据仓库中数据量的多少,也影响到数据仓库所能回答询问的种类。

第二种形式的粒度是样本数据库的粒度,根据采样率的高低来划分。

数据仓库中维的概念类似于关系表的属性,而数据立方体是指由两个或更多个属性即两个或更多个维来描述或分类的数据。

现在企业大部分使用的是关系数据库,在建设企业的数据仓库时,一般采用基于关系数据库的建模方法。

数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。数据集市一般在某个业务部门建立,满足其分析决策的需要,可以将其理解为“部门级数据仓库”。


你可能感兴趣的:(数据挖掘,数据仓库)