<数据仓库和数据挖掘> 第二章 联机分析处理

OLAP是针对特定问题的联机数据访问和分析处理.通过对信息的多种可能形式进行快速,稳定,一致的交互式存取,允许决策者对数据进行深入的观察.

1. OLAP的相关概念.

  1. 多维数据集:(数据立方体).多维数据集是一个数据集合,通常从数据仓库子集构造,并组织成一个由一组维度和度量值定义的多维结构.一个多维数据集最多可包含128个维度(每个维度中可包含数百万成员)和1024个度量值.多维数据集提供一种便于使用的查询数据机制,不但快捷而且相应时间一致.
  2. 度量值:度量值是所关心的具有实际意义的数值,(比如销售量,库存量等),度量值所在的表,称为事实数据表.(包含了大量的数据行,包含数据事实.度量值是所分析的多维数据集的核心.)
  3. 维度:观测数据的角度.包含维度信息的表,称为维度表,维度表包含描述事实数据表的实时记录的特效.
  4. 维的级别:一个维度往往具有多个级别,比如描述时间的维度,可以从年月日等级别来描述
  5. 维度成员:维的一个取值称为该维度的一个维度成员,简称维成员.

2.OLAP和OLTP的关系比较.

  • 联机事务处理:OLTP-On line Transcation Processing.在网络环境下的事务处理工作.(事务处理从单机到网络的发展.),(使用计算机网络技术,快速的进行事务处理和频繁的数据修改,处理的数据是高度结构化的).其特点是,处理量大,但内容比较简单,重复率高.(增删改查)OLTP的数据组织采用实体-关系模型.
  • 联机分析处理.基本思想是决策者从多方面和多角度以多维的形式来观测数据状态和变化.
OLTP OLAP
数据库数据 数据库或数据仓库数据
细节性数据 综合性数据
当前数据 历史数据
经常更新 不更新,周期性刷新
一次性处理的数据小 一次性处理的数据大
对响应要求高 不是很要求
用户数量大 用户量相对少
面向操作人员,支持日常操作 面向决策人员,支持决策需要
面向应用,事务驱动 面向分析,分析驱动

3.OLAP准则

  1. OLAP模型必须提供多维概念视图
  2. 透明性准则
  3. 存取能力准则
  4. 稳定的报表能力
  5. 客户.服务器体系结构
  6. 维的等同性准则
  7. 动态的稀疏矩阵处理准则
  8. 多用户支持能力
  9. 非受限的跨维操作
  10. 直观的数据操作
  11. 灵活的报表生成
  12. 非受限维与剧集层次.

FASMI准则:

  1. 快速性
  2. 可分析性
  3. 共享性
  4. 多维性
  5. 信息性

4.多维数据分析方法

多维分析可以对多维形式组织的数据进行上卷,下钻,切片,切块,旋转等操作,以便从多个维度多个侧面去分析数据,理解数据.

常用的分析方法整理:

  1. 切片:在给的的数据立方体的一个维上进行的选择操作就是切片(slice),切片的结构是得到一个二维平面的数据.

    --可以对应的转换到SQL中,类似于一个where条件.
    select id,name from test_table where sex="man";
    
  2. 切块:在给定的数据立方体的两个或者多个维度上进行选择就是切块.(dice),切块的结果是得到一个子立方体.

    --转换到SQL上,可以看做是多个where条件
    select id,name from test_table where sex="man" and age=20 and address="天津";
    
  3. 上卷:维度是具有层次性的,比如年月日.维度的层次实际上反应了数据的综合程度,程度高,细节越少,数据量越小,反之,细节越多,数据量越大.上卷(roll-up)也称为数据聚合.通过在维级别中上升或者通过消除某个维度来观测更概括的数据.(对应到SQL中,可以联系GroupBy操作)

  4. 下钻:(数据钻取),是上卷的逆操作,通过下降维的级别来细致的观测数据.

  5. 旋转:类比Excel中切换坐标轴的操作.

5.关系数据的组织

为了能够使用关系表描述多维数据库中的多维信息,关系联机分析处理将多维结构进行分解,适应两种表(维度表和事实表)来表达多维信息.

  • 维表和事实表的概念:
    • 维表:用维表来记录多维数据库中的维度,将多维数据立方体的坐标轴上的各个取值记录在一张维表中,这样对于一个n维数据立方体就存在n张维表.
    • 事实表:用来记录多维数据立方体的各个交点的度量值.
  • 维表和事实表的关联:
    • 维表和事实表相互独立,通过关系数据库中的外键来联系,互相关联构成一个统一的架构.通过使用维表和事实表的关联关系,就可以恢复多维数据立方体.
    • 在构建多维数据集时常用的架构有星型\雪花\星型雪花架构.

你可能感兴趣的:(<数据仓库和数据挖掘> 第二章 联机分析处理)