《Python数据分析与挖掘实战》第四章 数据预处理

主要包括数据清洗、数据集成、数据变幻和数据规约。

数据清洗

删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。

缺失值处理

方法:删除记录、数据差补和不处理
数据插补方法:均值/中位数/众数、固定值、最近临插补、回归、插值(拉格朗日插值法、牛顿插值法)

异常值处理

方法:删除含有异常值的记录、视为缺失值、平均值修正、不处理

数据集成

将多个数据源合并存放在一个一直的数据仓库中的过程

实体识别

从不同数据源识别出现实世界的实体,统一矛盾。
常见形式:同名异义、异名同义、单位不统一

冗余属性识别

例如:同一属性出现多次、同一属性命名不一致导致重复

数据变换

对数据进行规范化处理,转换数据形式

简单函数变换

例如平方、开放、取对数、差分运算等

规范化

方法:

  1. 最小-最大规范化(离差标准化)
    对原始数据线性变换,将数据映射到[0,1]之间
  2. 零-均值规范化(标准差标准化)
    经过处理的数据均值为0,标准差为1
  3. 小数定标规范化
    通过移动属性值的小数位数,将属性值映射到[-1,1]之间。

连续属性离散化

离散化过程:确定分类数、如何将连续属性映射到这些分类值
离散化方法:

  1. 等宽法
    将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定。
  2. 等频法
    将相同数量的记录放进每个区间。
  3. 基于聚类分析的方法

属性构造

利用已有属性构造出新的属性,并加入现有属性集合。

小波变换

数据规约

产生更小但是保持原数据完整性的新数据集。
意义:

  • 降低无效、错误数据对建模的影响
  • 减少挖掘时间
  • 降低储存数据的成本

属性规约

通过属性合并来创造新属性维数,或者删除不相关属性累减少数据维数
常用方法:合并属性、逐步向前选择、逐步向后删除、决策树归纳、主成分分析

数据规约

通过选择替代的、较小的数据来减少数据量,包括有参数方法(线性回归、多元回归)和无参数方法(直方图、聚类、抽样)两类。

你可能感兴趣的:(《Python数据分析与挖掘实战》第四章 数据预处理)