计算机三级数据库技术 第14章 数据仓库与数据挖掘

14.1 决策支持系统的发展

14.1.1 决策支持系统及其演化

➢般将数据分为:

  • 分析型数据
  • 操作型数据:由企业的基本业务系统产生的数据,用于联机处理环境(OLTP)。

➢决策支持系统(DSS):综合利用大量数据,有机组合众多模型(数学模型和数据处理模型),通过人机交互,辅助各级决策者实现科学决策的系统。

➢Keen和Scott Morton于70年代中期首次提出了"决策支持系统”(Decision Support System,简称DSS)一词,标志着利用计算机与信息支持决策的研究与应用进入了个新的阶段,并形成 了决策支持系统新学科。

➢20世纪80年代,个人计算机和第四代编程语言的出现,使得最终用户可以对数据和系统直接控制,很多管理息系统(MIS)开始出现,用以支持企业管理决策。

        被用户和开发人员改称为决策支持系统,即DSS。

➢传统的DSS一般建立在OLTP环境下。

➢演化过程进行到抽取程序阶段

        大型OLTP出现后,使用抽取程序解决性能和历史数据问题。

        用抽取程序能将数据从高性能联机事务处理方式中转移出来,所以,在需要总体分析数据时就与OLTP处理性能不发生冲突。

➢自然演化体系结构——贯穿于公司或组织时抽取处理模式很常见,这种由失控的抽取过程产生的结构被称为"自然演化体系结构"。

➢自然演化体系结构的问题

  • 忙碌的IT人员
  • 蜘蛛网问题
  • 数据缺乏可信性
  • 生产率问题
  • 从数据到信息的转换的不可行性

数据仓库的产生:为决策者建立一个集成的数据源——数据仓库

14.1.2 基于数据仓库的决策支持系统

计算机三级数据库技术 第14章 数据仓库与数据挖掘_第1张图片

操作型系统

数据仓库是核心,操作型系统是数据源,决策支持系统是数据的需求者。


14.2 数据仓库技术概述

14.2.1 数据仓库的概念与特性

➢建立数据仓库的目的:根据决策需求对企业的数据采取适当的手段进行集成,形成个综合的、面向分析的数据环境,用于支持企业的信息型、决策型的分析应用。

➢数据仓库的特性:面向主题性、集成性、不可更新性和时间特性等。

➢主题与面向主题

  • 数据仓库中的数据是以面向主题的方式进行组织的。
  • 主题也称为分析主题或分析领域,用于表示某一宏观的分析领域所涉及的对象,以及与对象有关的数据集合。
  • 目前,数据仓库主题数据的实现采用关系型数据库技术。

➢数据仓库的其他特征

  • 集成:数据仓库最重要的特性。分为数据抽取、转换、清理(过滤)和装载4项任务。
  • 不可更新:数据仓库中的数据以批量方式处理,不进行一般意义 上的数据更新。
  • 随时间变化:不断捕捉数据。

14.2.2 数据仓库的体系结构与环境

➢从数据层次角度来看,典型的数据仓库的数据体系结构包括:操作型数据、操作型数据存储(Operation Data Store)、数据仓库(Data Warehouse)和数据集市( Data Mart)。也可以包括个体层数据。

➢从功能结构看,可分为数据处理、数据管理和数据应用三个层次。

14.2.3 数据仓库的数据组织

  • 粒度

数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。

➢粒度影响到数据仓库的数据量及系统能回答的查询的类型。

➢进行数据仓库的数据组织时,应根据当前应用的需求进行多粒度级设计。满足多角度、多层次数据查询要求。

  • 数据分区(分割)

数据分散到各自的物理单元中去,它们能独立地处理。

➢最常见的是按照时间标准分区。

➢数据分区的方式可以分成系统层分区(数据库系统提供的机制)和应用层分区(由应用代码实现)两种。

➢如何分区由开发者和程序员控制。

  • 元数据

关于数据的数据,或叫描述数据的数据。用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。

➢元数据描述了数据的结构、内容、链和索弓|等内容。

➢在数据仓库中,元数据分成技术型元数据和业务型元数据。

➢元数据解决了人在何时何地为了什么原因及如如何使用数据仓库的问题。

  • Data Mart

数据集市--小型的,面向部或工作组级数据仓库。

  • Operation Data Store

操作型数据存储——ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、当前或接近当前的。

➢ODS分成4类:

  • ODS I:数据更新频率秒级。
  • ODS II:数据更新频率小时级。
  • ODSIII:数据更新频率天级。
  • ODSIV:根据数据来源方向和类型区分。


14.3 设计与建造数据仓库

14.3.1 数据仓库设计的需求与方法

数据仓库环境的系统开发生命周期(CLDS)

➢SDLC是典型的需求驱动开发生命周期,CLDS是典型的数据驱动开发生命周期。

➢传统的系统开发生命周期支持操作型环境,为建立系统,必须首先理解需求,然后进入到设计和开发阶段。

➢CLDS由数据开始,一旦数据到手,就集成数据,然后,如果数据有偏差,就检验看看数据存在什么偏差,再针对数据写程序,分析程序执行结果,最后,系统需求才得到理解。

        数据仓库是为了构建新的分析处理环境而出现的一种数据存储和组织技术,基本特征包括:数据是面向主题的、集成的、非易失的、随时间不断变化的。主题是一个在较高层次上对数据的抽象,这使得面向主题的数据组织可以独立于数据的处理逻辑,因而可以在这种数据环境上方便地开发新的分析型应用。

14.3.2 数据仓库的数据模型

➢数据仓库的数据模型分为概念( E-R图)、逻辑(关系型模型或多维数据模型)、物理三级数据模型。与普通数据库系统的数据模型不同:

①一般不包含纯操作型数据。

②一般需要扩充关键字结构,在其中加入时间属性。

③需要增加导出数据。

14.3.3 数据仓库设计步骤

➢数据仓库的设计过程分为:

概念模型设计、技术评估与环境准备工作、逻辑模型设计、物理模型设计、数据生成与应用实现、数据仓库运行与维护。


14.4 数据仓库的运行与维护

14.4.1 数据仓库数据的更新与维护

➢数据仓库维护的基本思路:

根据某种维护策略,在一定条件下触发维护操作;维护操作捕捉到数据源中的数据变化;通过一定策略对数据仓库中的数据进行相应的更新操作,以保持两者的致性。

➢维护策略

  • 实时维护

在数据源发生变化时,立即更新。

  • 延时维护

在数据仓库中的视图被查询时完成更新。

  • 快照维护

定期对数据仓库进行维护,触发条件是时间。

➢捕捉数据源的变化

当数据源发生变化时,告知数据仓库源数据发生变化的机制,就是源数据变化的监听及捕获问题。典型的方法有:

  • 触发器
  • 修改数据源应用程序
  • 通过日志文件
  • 快照比较法

➢导出数据的刷新

两种:

  • 根据维护对象的数据源对其进行重新计算。
  • 根据数据源的变化量在维护对象原有数据的基础上进行添加和修改,即增量式维护。

用户不可存取数据仓库时间的长短是衡量数据维护效率的重要指标。将维护分为“聚集"和"更新”两个部分。

14.4.2 数据仓库监控与元数据管理

➢数据仓库监控

        对数据仓库的数据量、各种数据的使用率、用户和安全状况、网络通信情况、网络数据流量、数据源数据变化情况、集成和维护工具运行效率、查询响应时间、应用支持效率等进行必要的监控。

➢元数据管理

一般采用元数据库来存储和管理元数据。


14.5 联机分析处理与多维数据模型

14.5.1 OLAP简介

➢OLAP——联机分析处理或在线分析处理

主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。

➢OLAP工具一般具有快速、可分析和多维的特点。

14.5.2 多维分析的基本概念

➢维一——人们观察数据的角度。

➢数据的多维分析——针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次,采取各种数据分析技术,对数据进行剖析,以使用户能从多角度和不次观察和分析数据。

14.5.3 多维分析的基本操作

➢钻取与卷起

OLAP分析最基本的操作。钻取指对应于某一维逐步向更细节层方向观察数据,卷起则反之。

➢切片和切块

实现局部数据的显示。

➢旋转

改变个报告或页面显示的维方向,得到不同视角的数据。最简单的旋转就是数据交叉。

14.5.4 OLAP的实现方式

OLAP的实现方式有三种:

➢基于多维数据库的OLAP(MOLAP)

以多维数组为基本存储结构。

➢基于关系数据库的OLAP(ROLAP)

采用关系表表示和存储。(星形模式或雪花模式)

➢混合型的OLAP(HOLAP)

结合MOLAP与ROLAP。具有最好的查询性能。

➢数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

➢数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用。

14.6 数据挖掘技术

14.6.1 数据挖掘步骤

数据挖掘作为知识发展的过程,分为三个阶段:

➢数据准备

三个子步骤:数据选取;数据预处理;数据变化。

➢数据挖掘

首先确定挖掘的任务,其次决定挖掘算法。

➢结果解释评估

剔除冗余或无关的模式。

  • 常见的数据挖掘任务

➢分类预测任务

常见的方法:决策树、神经网络、规则归纳、支持向量机、贝叶斯、粗糙集、回归分析、K最近邻等。

➢描述型任务

典型的方法:聚类、关联、分析等。

14.6.2 关联规则挖掘

“啤酒和尿布”

➢关联规则挖掘过程主要包含两个阶段:

  • 第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets) ,
  • 第二阶段再由这些高频项目组中产生关联规则(Association Rules).

14.6.3 分类挖掘

➢分类挖掘方法——用于预测数据对象的离散类别。

一般分为两个步骤:

  • 通过已知数据集,建立分类函数,构造分类器。
  • 利用所获得的分类函数对未知类别标记的数据项进行分类操作。

14.6.4 聚类挖掘

➢聚类挖掘方法——用于对集中的数据进行分组,使得每组内的数据尽量相似而不同组间的数据尽可能不同。

➢聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等。

14.6.5 时间序列分析

➢时间序列——用时间排序的一组随机变量。

➢时间序列分析——又称为数据演变分析 ,描述行为随时间变化的对象的规律或趋势,并对其进行建模。

➢从不同角度可分为:一元时间序列和多元时间序列;等间隔时间序列和不等间隔时间序列;平稳时间序列和非平稳时间序列。

章末测试

一、选择题

1、下列哪一条不是数据仓库的基本特征( )。

A. 数据是集成的

B. 数据是相对稳定的

C. 反映当前准确数据

D. 数据是面向主题的

答案:C

2、在大型企业的数据库应用系统中,联机事务处理(OLTP)和联机分

析处理(OLAP)是常见的数据库管理和数据分析形式。关于OLTP和

OLAP,一般情况下,下列说法正确的是( )。

A. OLTP系统的安全性要求比OLAP系统的低,也比较容易实现

B. OLTP系统在访问数据时,一 般以单条记录访问为主,集合访问为辅,OLAP系统则相反

C. OLTP系统要求系统必须具有很高的响应速度,而OLAP对系统的响应速度要求较为宽松

D. OLTP系统一般由企业的中 上层或决策使用,而OLAP系统一般由

企业的中下层业务人员使用

答案:C

3、对于ODS体系,有下列说法:

I . ODSI:第一类ODS数据更新频率是天级,一般隔夜后将数据更新到ODS中

II. ODSII:第二类ODS的数据更新频率是小时级, 如4小时更新一次

III . ODSIII:第三类ODS的数据更新频率是秒级,即操作型系统中的数据发生改变后,几乎是立即传送到ODS中,这类ODS建设难度大

IV . ODSIV:第四类ODS是根据数据来源方向和类型划分的,不仅包含来自操作型环境的数据,也包含由数据仓库层和数据集市层的应用反馈给ODS的一些决策结果或些报表信息

以上说法正确的是( )。

A. 仅I和II

B. 仅I和III

C. 仅II和IV

D. I、II、III和IV

答案:C

4、给定如下三个关系表:

销售明细表(商品标识,销售时间,单价,数量,金额) 日销售表(商品标识,销售日,总数量,总金额) 月销售额(商品标识,销售月份,总数量,总金额)

下列说法正确的是( )。

A. 销售明细表的数据粒度最大,数据量最大

B. 日销售表的数据粒度最大,数据量最小

C. 月销售表的数据粒度最大,数据量最小

D. 月销售表的数据粒度最小,数据量最小

答案:C

5、在超市所从事的信息活动当中,下列属于挖掘时间序列模式的是( )。

A. 针对匿名客户,记录其购买某种商品时,与该商品有关的优惠

B. 针对所有客户,对其篮子里的商品进行分析

C. 针对注册用户,分析他们的购买,向他们设定下次可能购买的优惠规则

D. 针对注册用户,进行客户分类,确定重要客户及服务对策

答案:C

6、设某银行有基于关系型数据库的数据仓库系统,其中有下列数据

I. 账户余额快照数据

II. DBMS的数据字典

III. 账户存取明细数据

IV. 数据表结构说明文档

V. 数据抽取日志

以上数据不属于元数据的是( )。

A. 仅I和III

B. 仅IV和V

C. 仅I、III和V

D. 仅I和IV

答案:C

二、填空

1、数据仓库是一个面向主题、集成的、时变的、非易失的数据集合,支持管理部门的决策过程,数据仓库通过数据转移从多个数据源提取数据,为了解决不同数据源格式上的不统一,需要进行的数据操作是( )。

答案:转换

2 、OLAP主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的数据支持。OLAP的实现方式主要有三种:MOLAP、( )和HOLAP。

答案:ROLAP

3 、在进行多维分析时,如果将年销售额投影到每个月上来进行观察,这种分析动作被称为( )。

答案:钻取

4、知识发现主要由三个步骤组成,它们是( )、数据挖掘、结果的解释评估。

答案:数据准备

你可能感兴趣的:(计算机三级数据库技术,sql,数据库)