数据仓库中的一些核心概念

1、什么是数据仓库

  数据仓库技术是随着人们对大型数据库系统研究的不断深入,在传统数据库技术基础之上发展而来的,其主要目的就是为决策提供支持,为OLAP、数据挖掘深层次的分析提供平台。
数据仓库是一个和实际应用密不可分的研究领域,与传统数据库相比,数据仓库不仅引入了许多新的概念,而且在体系结构、数据组织等方面,均有其自身的特点。

2、数据仓库要解决的基本问题

    全局范围内统一数据视图
        数据内容
            数据的完整性
            数据的准确性
        数据的一致性
        数据组织
            面向分析决策

3、数据仓库的定义

数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策和信息的全局共享。

4、DW中的数据组织

1、DW中的数据以四个基本特征为基础, 分为四个级别:
早期细节级、当前细节级、轻度综合级、高度综合级。
源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合从而进入轻度综合级及至高度综合级。
老化的数据将进入早期细节级。
不同的综合级别称之为 "粒度"。
2、四级数据说明:
高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。
轻度综合数据:从近期基本数据中提取出的,这层数据是按时间段选取,或按数据属性和内容进行综合。
当前细节级(近期基本数据):是最近时期的业务数据, 是数据仓库用户最感兴趣的部分,数据量大。
早期细节级(历史基本数据):近期基本数据随时间的推移, 由数据仓库的时间控制机制转为历史基本数据。

5、数据粒度

粒度问题是设计数据仓库的一个最重要方面。
粒度: 数据仓库中保存数据的细化或综合程度的级别。
细化程度越高,粒度越小; 粒度越高,所能回答查询的能力越低。
注意: 粒度划分的决定性因素不是总数据量, 而是总的记录数。

6、立方和数据立方体

数据仓库建立在多维数据模型上,以数据立方体的方式来观察数据
在数据仓库研究界, 把数据立方体称为方体。
给定若干个维构造出方体的格称为数据立方体。
    其中每一个方体都表示在不同的概括层次上的汇总
    顶点方体: 最顶层的方体; 它是0维方体, 代表最高的概括层, 即求所有所有数据的总和;
    基本方体: 最低层的方体; 存放最低层汇总数据。
    其余每个点通称为方体, 代表一个普通的数据立方。
    下图是一个数据立方体和对应的各个层次的方体。

数据仓库中的一些核心概念_第1张图片

7、多维数据模型的相关概念

度量(或称变量):数据的实际意义; 即描述数据 "是什么"
如: 销售量、库存量等;  可对它们进行统计, 聚集操作等。
维(OLAP的核心)是人们观察数据的特定角度。
例: 一个电子公司的销售从三个方面(三个维)分析销售额:
    时间维:在某段时间内的销售情况, 度量为季度(或年, 月, 旬, 天)
    地区维: 在某个地区的销售情况,  度量为省(或国家, 市)
    产品维: 某类(或型号)产品的销售情况, 度量为类别(或型号等)
维属性值: 维属性的取值
    如商品维可以有: 产地, 颜色等
数据单元: 不同维度在某个取值下的交叉点, 是事件的度量

数据仓库中的一些核心概念_第2张图片

8、维的层次和层数

维的层次: 人们观察数据细节的不同程度称为维的层次
    人们观察数据的某个特定程度(即某个维)还可能存在细节程度不同的多个方面。
        如描述时间维时,可从日期、月份、季度、年等不同层次来描述,则日期、月份、季度、年就是时间维的层次。
维成员: 维的一个取值称为该维的一个维成员也称维值
    若一个维的某种层次具有多个层, 则该维的维成员是不同维层取值的组合。一个维成员并不一定在每个维上都要取值。

数据仓库中的一些核心概念_第3张图片

9、概念分层:维度(location)

数据仓库中的一些核心概念_第4张图片

10、数据立方体的例子

数据仓库中的一些核心概念_第5张图片

你可能感兴趣的:(数据仓库,数据仓库)