数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP

一、数据预处理的主要任务:

(1)数据清理:通过填写缺失的值、光滑噪声数据、识别和删除离群点等方法去除数据中的噪声数据和无关数据,并且处理遗漏的数据和清洗“脏”数据,考虑时间顺序和数据变化等。数据清理主要针对缺失值的数据处理,并完成数据类型的转换。

(2)数据集成:当需要分析挖掘的数据来自多个数据源时,就需要集成多个数据库、数据立方体或文件,即数据集成。

(3)数据归约:就是指对数据集进行简化表示。大量的冗余数据会降低知识发现过程的性能或使之陷入混乱。

(4)数据变换:是将数据从一种表示形式变为另一种表现形式的过程,它包括了数据的规范化、数据离散化和概念分层,可以使数据的挖掘在多个抽象层上进行。

二、数据规范化的方法:
数据规范化是通过将数据压缩到一个范围内(0~1 或-1—1),赋予所有属性相等的权重。主要方法有:
(1)按小数定标规范化:通过移动属性值的小数点的位置进行规范化,通过除以10的j次方,使其落在-1到1的范围内。

(2)最小-最大值规范化:对原始数据进行了线性变化
minA和maxA分别表示属性A的最小值和最大值。
数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第1张图片
(3)z-score规范化:基于属性的均值标准差进行规范化的。

第四章:数据仓库与OLAP

1.数据仓库的定义 :数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。数据仓库是一种集成型数据库,也可以看作是多维异构历史数据的存储过程。

2.数据仓库的性质:

(1)面向主题:数据仓库紧紧围绕决策者所关注的主题的数据建模和分析,排除对于决策者无用的数据,提供该特定主题的简明视图。
(2)集成性:数据仓库中的数据来自于多个异构数据源,通过使用数据清理和数据集成技术整合到数据仓库中。
(3)与时间相关:数据库关注历史数据,其关键结构总是包含时间元素,利用它抽取到的知识与信息,也间接体现了所属时段的特性。
(4)不可变更:从数据的使用方式角度来看,数据仓库只需要两种访问操作:数据的初始化装入和数据访问。当数据存放到数据仓库中以后,用户不需要且不能修改数据仓库中的数据。

3.数据仓库体系结构
三层体系结构:数据仓库服务器 + OLAP服务器 + 前端工具
(1)底层:数据仓库服务器
使用一些后端工具和使用程序,对其他外部数据源的数据进行提前、清理、变换、装入和刷新,将高质量的数据更新到数据仓库。
(2)中间层:OLAP服务器
联机分析处理(OLAP)是数据仓库系统前端分析服务的分析工具,能快速汇总大量数据并进行高效查询分析,为分析人员提供决策支持。
(3)顶层:前端工具
包括数据挖掘工具、数据分析工具和查询与报表工具,用于知识工人直接操作获取知识。

4.数据仓库与数据库的区别
数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第2张图片
数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第3张图片
5.应用:数据仓库的模型的创建(星星、雪花)上卷、下钻。给出目的。
数据仓库的设计大体上分为以下三个步骤:数据仓库的概念模型设计、数据仓库的逻辑模型设计、数据仓库的物理模型设计。
(1)数据仓库的概念模型设计:目的是对数据仓库涉及的实体和客观的实体进行抽象和分析,并在此基础上构建一个相对稳定的模型。

  • 星形模型:包括一个大型的事实表和一组逻辑上围绕这个事实的维表
    数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第4张图片
  • 雪花模型:对星型模型的扩展、延伸以及标准化。对维度实体进行更加深入、详细的分析。
    数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第5张图片
    (2)数据仓库的逻辑模型设计
    它直接反应了业务部门的实际需求和业务规则,同时对物理模型设计和实现具有指导作用。
    逻辑模型设计的关键是细化主题划分并建立维度模型,主要的工作是进行事实表模型设计和维表模型设计。
    (3)数据仓库的物理模型设计
    这个阶段需要在充分了解数据和硬件设备的基础上确定数据的存储结构、索引策略、数据存放位置等信息。

5.OLAP和OLTP的区别:

OLAP适合以数据仓库为基础的数据分析处理。
OLTP是对数据库数据的联机查询和增、删、改操作
(1)OLAP面向的是市场,主要共企业的决策人员和中高层管理人员使用,用于数据分析。OLTP面向的是顾客,主要供操作人员和底层管理人员使用,用于事务和查询处理。
(2)OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息,这些特点使数据更容易用于决策分析。OLTP系统则仅管理当前数据,通常数据太繁琐,难以用于决策。
(3)OLAP系统处理的是来自不同组织的信息,是由多个数据存储集成的信息。由于数据量巨大,OLAP数据存放在多个存储介质上,不过,对OLAP系统的访问大部分都是只读操作。OLTP系统则主要关注企业或部门内部的当前的数据,而不涉及历史数据或不同组织的数据。

6.典型的OLAP的操作
(1)切片:在给定数据立方体的一个维上进行的选择操作,目的是降低多维数据集的维度。三维->二维
(2)切块:在给定的数据立方体的两个或多个维上进行的选择操作就是切块,切块的结果是得到了一个子立方体。
(3)上卷:是在数据立方体中执行聚集操作,通过在维级别上升或通过消除某个某些维观察更概括的数据。(对某一维进行汇总+消除一个或多个维)将季度汇总到上半年下半年、消除“商品”维得到4-26
(4)下钻:通过维级别中下降或通过引入某个或某些维更加细致地观察数据。将第一季度下降到月、在4-26中重新添加“商品”维度。
(5)旋转:改变数据立方体维次序的操作。(行->列)
数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第6张图片
数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第7张图片
数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第8张图片
数据挖掘 第三章 第四章 :数据预处理的主要任务+数据规范化的方法+数据仓库OLAP_第9张图片

你可能感兴趣的:(数据挖掘)