信息系统项目管理师自学笔记(十七)——数据仓库与数据挖掘

为了满足中高层管理人员预测、决策分析的需要,在传统数据库的基础上产生了能够满足预测、决策分析需要的数据环境——数据仓库。

3.7.1 数据仓库的概念

数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的,且随时间变化的数据集合,用于支持管理决策。

  1. 面向主题的。操作型数据库的数据组织面向事务处理任务(面向应用),各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。
  2. 集成的。在数据仓库的所有特性中,这是最重要的。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
  3. 相对稳定的(非易失的)。
  4. 反映历史变化或者说是随着历史变化。

3.7.2 数据仓库的体系结构

  1. 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于数据库管理系统中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。
  2. 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。
  3. *OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。
  4. 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

*标星位置种OLAP服务器具体实现可以分为:ROLAP、MOLAP和HOLAP

  • ROLAP基本数据和聚合数据均存放在RDBMS之中
  • MOLAP基本数据和聚合数据均存放于多维数据库中
  • HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中

3.7.3 数据仓库的设计与开发

根据软件工程思想及数据仓库系统实施方法学,可以将数据仓库的开发、实施分为以下几个步骤:

  1. 业务需求分析。业务需求分析是数据仓库建设的基础,应该同用户进行充分沟通,了解用户的真实需求,避免理解的误差,同时,应该界定好项目开发范围。
  2. 逻辑模型设计。逻辑模型设计主要是指数据仓库数据的逻辑表现形式。为数据仓库和数据集市定义数据模型是一项复杂的工作,需要领域专家的参与。
  3. 物理模型设计。在进行物理模型设计时,主要是将数据仓库的逻辑模型转换为在数据库中的物理表结构。
  4. 数据抽取、清洗、集成、装载等。数据抽取是数据仓库建立中的一个非常重要的步骤。它负责将分布在用户业务系统中的数据进行抽取、清洗、集成,并将数据存储到数据仓库之中。
  5. 数据仓库的管理。数据仓库元数据的管理也是极为重要的环节。
  6. 数据的分析、报表、查询等数据的表现。用户分析、报表、查询工具是用户进行分析决策使用的工具。因此,其所有操作要非常简单,但提供的功能却要十分强大。此外,数据挖掘技术也是数据仓库系统中一个重要部分。主流的数据仓库产品都提供相应的数据挖掘工具;当然也可以选用第三方数据挖掘工具。
  7. 数据仓库性能优化及发布。数据仓库性能的好坏直接影响系统查询、分析响应速度。

3.7.4 数据挖掘的概念

从技术上来看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
从业务角度来看,数据挖掘是一种新的业务信息处理技术,其主要特点是对业务数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助业务决策的关键性数据。
数据挖掘其实是一类深层次的数据分析方法。
常用的数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析以及时间序列分析等。

  1. 关联分析。关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。
  2. 序列分析。序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。
  3. 分类分析。分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法等。
  4. 聚类分析。聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
  5. 预测。预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。
  6. 时间序列分析。时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。

3.7.5 数据挖掘的流程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。
数据挖掘的流程大致如下:

  1. 问题定义。在开始数据挖掘之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求。想充分发挥数据挖掘的价值,必须对目标要有一个清晰明确的定义,即决定到底想干什么。
  2. 建立数据挖掘库。要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数据库中,而不是采用原有的数据库或数据仓库。
  3. 分析数据。分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,用聚类分析区分类别,最终要达到的目的就是搞清楚多因素相互影响的、十分复杂的关系,发现因素之间的相关性。
  4. 调整数据。通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化。针对问题的需求对数据进行增删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以体现对状态的有效描述。
  5. 模型化。在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型。这一步是数据挖掘的核心环节,一般运用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。
  6. 评价和解释。上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估的一种办法是直接使用原先建立的挖掘数据库中的数据来进行检验,另一种办法是另找一批数据并对其进行检验,再一种办法是在实际运行的环境中取出新鲜数据进行检验。

数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程。这一过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优选问题的解决方案。

你可能感兴趣的:(信息系统项目管理师,数据挖掘,数据分析)