数据分析与挖掘理论-数据预处理

数据预处理

  • 一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。
  • 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域,
  • 分为数据清洗、数据集成、数据变换和数据规约。

数据清洗

  • 删除无关数据、重复数据、平滑噪声数据、处理缺失值和异常值。
    • 缺失值处理
      • 插补
      • 删除
        • 在数据量很少的情况下,这是利用数据为代价换取完备,是不合理的。
      • 插值模型
        • 拉格朗日插值法(scipy实现)
        • 牛顿插值法(scipy未实现)
    • 异常值处理
      • 删除
      • 视作缺失值
      • 平均值处理
      • 不处理

数据集成

  • 多数据源数据仓库化。
    • 实体识别
      • 同名异义
      • 异名同义
      • 单位不统一
    • 冗余属性识别
      • 同一属性多次出现
      • 同一属性命名不一致导致重复

数据变换

  • 规范化处理数据,便于使用。
    • 简单函数变换
      • 常用来将不具有正态分布的数据变换成具有正态分布的数据。
    • 规范化
      • 最小-最大规范化
      • 零-均值规范化(使用最多)
      • 小数定标规范化
    • 连续属性离散化
      • 等宽法
      • 等频法
      • 聚类
    • 属性构造
      • 推导属性
    • 小波变换
      • 新型数据分析工具

数据规约

  • 降低错误数据对建模的影响,减少存储成本
    • 属性规约
    • 数值规约
      • 直方图
      • 聚类
      • 抽样
      • 参数回归

相关库函数的使用,可以查看我的博客

  • 我的博客

你可能感兴趣的:(数据分析与挖掘)