数据挖掘2.3——数据预处理 知识点整理

数据挖掘2.3——数据预处理 知识点整理

  • 1.数据质量
  • 2.数据预处理方法
    • 2.1 数据清洗
    • 2.2 数据集成
      • 1. 模式集成
      • 2. 实体识别问题
      • 3. 数据冲突检测
    • 2.3数据规约
      • 1.降维
      • 2.降数据
      • 3.数据压缩
    • 2.4数据转换和离散化
  • 3.数据特征构造

1.数据质量

数据挖掘2.3——数据预处理 知识点整理_第1张图片

2.数据预处理方法

  • 数据清理
  • 填写缺失值, 平滑噪声数据, 识别或删除离群, 并解决不一致问题
  • 数据集成
  • 整合多个数据库, 多维数据集或文件
  • 数据缩减
  • 降维
  • Numerosity reduction
  • 数据压缩
  • 数据转换和数据离散化
  • 正常化
  • 生成概念层次结构

2.1 数据清洗

  • 脏数据
    • 不完整的: 缺少属性值, 缺乏某些属性值, 或只包含总数据
    • 忽略元组、手动填写、自动填写
  • 含嘈杂的噪音, 错误或离群
    • 例如, 工资= -10 (错误)
    • 处理:盒装图检测并删除离群点
  • 不一致的代码或不符的名称
    • 年龄= “42” 生日=“03/07/1997”
    • 曾经评级 “1,2,3” , 现在评级 “A, B, C”
    • 计算推理替换、全局替换

2.2 数据集成

将来自多个数据源的数据组合成一个连贯的数据源
数据挖掘2.3——数据预处理 知识点整理_第2张图片

1. 模式集成

数据挖掘2.3——数据预处理 知识点整理_第3张图片

2. 实体识别问题

数据挖掘2.3——数据预处理 知识点整理_第4张图片

3. 数据冲突检测

数据挖掘2.3——数据预处理 知识点整理_第5张图片

2.3数据规约

原因

由于数据仓库可以存储TB的数据, 因此在一个完整的数据集上运行时, 复杂的数据分析可能需要一个很长的时间

1.降维

原因
①随着维数的增加, 数据变得越来越稀疏
②子空间的可能的组合将成倍增长
③需要学习的参数越多,模型越复杂,需要更多的训练集,越容易欠拟合

需要降维的场景

  • 参数据稀疏, 维度高
  • 高维数据采用基于规则的分类方法
  • 采用复杂模型, 但是训练集数目较少
  • 需要可视化

方法

  • PCA主成分分析法

2.降数据

  • 方法
    抽样法

抽样类型

  • 简单随机抽样(Simple Random Sampling)
    • 相等的概率选择
    • 不放回抽样(Sampling without replacement)
      • 一旦对象被选中, 则将其删除
    • 有放回抽样(Sampling with replacement)
      • 选择对象不会被删除
  • 分层抽样
    • 每组抽相同个数
    • 用于偏斜数据

3.数据压缩

2.4数据转换和离散化

函数映射,给定的属性值更换了一个新的表示方法, 每个旧值与新的值可以被识别。

方法

  • 规范化: 按比例缩放到一个具体区间
    • 最小-最大规范化
      在这里插入图片描述

    • Z-得分正常化
      在这里插入图片描述

    • 小数定标规范化
      移动属性A的小数点位置(移动位数依赖于属性A的最大值)
      数据挖掘2.3——数据预处理 知识点整理_第6张图片

  • 离散化
    原因:部分挖掘算法仅适用于离散数据
    方法:
    ①非监督离散
    等宽法、等频法、聚类
    数据挖掘2.3——数据预处理 知识点整理_第7张图片

3.数据特征构造

你可能感兴趣的:(数据挖掘,笔记,数据挖掘,数据仓库,数据分析)