NEFU数据仓库与数据挖掘复习

文章目录

  • 数据仓库和数据挖掘概述
  • 数据仓库
    • 数据仓库的两个主要作用
    • 数据仓库的关键特征
    • 数据仓库的三级模型
  • OLAP
    • OLAP概述
      • OLAP与DW
      • OLAP与OLTP
      • OLAP的特性
    • OLAP的分析方法
    • OLAP的数据组织
      • ROLAP和MOLAP的对比
  • 数据预处理
    • 数据清洗
    • 数据集成
      • 模式匹配问题
      • 冗余问题
      • 数据值冲突问题
    • 数据变换
    • 数据归约
  • 联机分析处理

数据仓库和数据挖掘概述

  • 定义:数据挖掘是从大量的数据中挖掘出隐含的,未知的,用户可能感兴趣的和对决策有潜在价值的知识和规则

数据仓库

  • 数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库”

  • 定义:数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。

  • 数据仓库既保存过去的数据又保存当前的数据

  • 数据仓库的数据是大量数据库的集成

    数据挖掘可以挖掘的一些常用模式如下:

    关联分析

    ​ 关联规则挖掘:反映一个事件和其他事件依赖或关联的知识。

    聚类分析

    ​ 最大化类内的相似性和最小化类间的相似性(无监督的学习方法)

    ​ 示例:扑克牌的划分

    分类挖掘

    ​ 反映同类事物共同性质的特征性之和和不同事物之间的差异性特征知识(有监督的学习方法)

    ​ 垃圾邮件的识别属于分类问题,训练集中的每封邮件预先被标记为垃圾邮件或合法邮件信息,需要利用已有的训练邮件建立预测模型

    孤立点分析

    ​ 对差异和极端特例的描述

    ​ 孤立点:事物偏离常规的异常现象,标准类外的特例,数据聚类外的离群值

NEFU数据仓库与数据挖掘复习_第1张图片

数据仓库的两个主要作用

  • 存储经过加工处理的决策需要的数据

  • 查询决策分析的依据

    数据仓库的关键特征

    1. 面向主题
    2. 集成的
    3. 随时间而变化的
    4. 不容易丢失的

数据仓库与数据挖掘的区别

NEFU数据仓库与数据挖掘复习_第2张图片

数据仓库与数据挖掘的联系

NEFU数据仓库与数据挖掘复习_第3张图片

数据仓库的三级模型

  1. 概念模型

    ​ 数据仓库用信息包图表示概念模型

NEFU数据仓库与数据挖掘复习_第4张图片

  1. 逻辑模型

    通常由三种逻辑模型表示法:星型模型,雪花模型,事实星座模型

    NEFU数据仓库与数据挖掘复习_第5张图片

    NEFU数据仓库与数据挖掘复习_第6张图片

  2. 物理模型

主要进行:数据存储结构,存储策略,索引策略,存储分配优化

OLAP

OLAP概述

OLAP的技术核心是,因此OLAP也可以说是多维数据分析工具的集合。

在这里插入图片描述

OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。

OLAP与DW

NEFU数据仓库与数据挖掘复习_第7张图片

OLAP与OLTP

NEFU数据仓库与数据挖掘复习_第8张图片

OLAP的特性

  • 快速性

系统应在5秒内对用户的大部分分析要求做出反应

  • 可分析性

    应能处理与应用有关的任何逻辑分析和统计分析

  • 多维性

    提供数据的多维试图和分析

  • 信息性

    应能及时获得信息并且管理大容量信息

OLAP的分析方法

  • 切片

    选定一个二维子集,切出一个平面

  • 切块

    选定一个三位子集,切出立方体

  • 旋转

    改变一个报告显示的维方向

  • 钻取

    根据维层次改变数据的粒度

OLAP的数据组织

  • ROLAP

    rolap是基于关系型数据库的OLAP

  • MOLAP

    MOLAP是基于多维数据库存储方式建立的OLAP,采用类似多维数组的结构

  • HOLAP

    HOLAP是混合型的

ROLAP和MOLAP的对比

  1. 数据存储速度:ROLAP需要将SQL语句转化为多维存储语句,临时拼合为多维数据立方体,因此ROLAP的响应时间较长
  2. 维度变化的适应性:MOLAP增加新的维度,则多维数据库通常需要重新建立,ROLAP对于维表的变更有很好的适应性

数据预处理

数据的杂乱性,重复性,不完整性,噪声数据会对数据挖掘带来很大的影响。

数据预处理的常见方法

数据清洗:去掉数据中的噪声

数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集。

数据变换:数据的规范化

数据归约通过聚集,删除冗余属性或聚类等方法来压缩数据。

NEFU数据仓库与数据挖掘复习_第9张图片

数据清洗

  1. 空缺值的处理

    • 忽略该元组
    • 人工填写空缺值
    • 使用属性的平均值填充空缺值
    • 使用与给定元组属同一类的所有样本的平均值
    • 使用一个全局变量填充空缺值
    • 使用最可能的值填充空缺值:利用回归,贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值
  2. 噪声数据的处理

    • 分箱

NEFU数据仓库与数据挖掘复习_第10张图片
NEFU数据仓库与数据挖掘复习_第11张图片
NEFU数据仓库与数据挖掘复习_第12张图片
NEFU数据仓库与数据挖掘复习_第13张图片

  • 聚类方法

  • 线性回归

  • 人机结合共同检测

  1. 不一致数据的处理

    • 人工更正
    • 利用知识工程工具
    • 数据字典

数据集成

NEFU数据仓库与数据挖掘复习_第14张图片

模式匹配问题

NEFU数据仓库与数据挖掘复习_第15张图片

冗余问题

NEFU数据仓库与数据挖掘复习_第16张图片

数据值冲突问题

NEFU数据仓库与数据挖掘复习_第17张图片

数据变换

  1. 平滑
  2. 聚集:对数据进行汇总和聚集
  3. 规范化:将数据按照比例进行缩放,使之落入一个特定区域,以消除数值型属性因大小不一而造成的挖掘结果的偏差,如将工资收入映射到[-1,1]的范围内

NEFU数据仓库与数据挖掘复习_第18张图片

数据归约

数据规约是在不影响数据挖掘的情况下缩小所挖掘的数据的规模

数据归约的策略

  • 数据立方体聚集NEFU数据仓库与数据挖掘复习_第19张图片

  • 维归约在这里插入图片描述

    把不相关的属性给删掉,就能减少数据量

    如何才能选择好的属性子集?

    策略是局部最优选择,期望由此导致全局最优解

    逐步向前选择,逐步向后删除,向前选择和向后删除的结合,判定树归纳。

  • 数据离散化

    1. 分箱
    2. 基于熵的离散化
    3. 通过自然划分分段
    4. 聚类

联机分析处理

从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。

你可能感兴趣的:(数据仓库,数据挖掘,数据库)