数据预处理及特征提取

文章目录

  • 一、什么是数据清洗?
    • 1.缺失值处理
      • (1)删除法
      • (2)插补法
    • 2.异常值处理
      • (1)简单统计量分析
      • (2)3δ准则
      • (3)箱型图分析
    • 3一致性分析
  • 二、数据预处理中的转换方法
    • 1、数据变换
    • 2.数据变换方法
      • (1)简单函数变换
      • (2)数据归一化
      • (3)连续数据离散化
      • (5)属性构造
  • 三、主成分分析(PCA)
    • 1.主成分分析的数学模型
    • 2.主成分分析算法
      • (1)算法求解与推导
  • 总结


一、什么是数据清洗?

数据清洗:对“脏数据”进行处理。
数据预处理及特征提取_第1张图片

1.缺失值处理

什么是缺失数据?数据直接是空的,或者显示NaN。
缺失值处理有两种方法:删除法和插补法。

(1)删除法

对于存在缺失值的数据,直接删去整条数据。
优点:简单,保证数据准确性。
缺点:数据成本高,其余数据可能包括大部分的信息,删去整行数据比较浪费。

(2)插补法

数据预处理及特征提取_第2张图片

2.异常值处理

异常值分析:检测数据是否有输入错误或者含有不合常理的数据。(样本中的离群点)

        异常值会影响模型和分析结果。异常值检查是十分重要的,方法有:简单统计量分析、3δ准则和箱型图分析.

(1)简单统计量分析

最常用的方法是分析最大值和最小值。

(2)3δ准则

正太分布3δ倍标准差之外为异常。
数据预处理及特征提取_第3张图片

(3)箱型图分析

箱型图外部为异常。(具有较好的鲁棒性)
数据预处理及特征提取_第4张图片

3一致性分析

不一致性:数据的矛盾性和不相容性。

二、数据预处理中的转换方法

1、数据变换

数据变换:主要是对数据进行规范化处理,将数据转换成适当的形式。

2.数据变换方法

(1)简单函数变换

        是对原始数据进行某些数学函数变换。常用的变换包括平方、开方、取对数、差分运算等。

例:1.时间序列分析:简单的对数变换、差分运算;
       2.取值范围较为宽泛的分布:对数变换。

(2)数据归一化

数据归一化:消除指标间量纲和取值范围差异。
常见的数据归一化方法:“最小—最大规范化”和“零—均值规范化”。
数据预处理及特征提取_第5张图片

(3)连续数据离散化

连续数据离散化:将连续数据变换为分类属性。(对连续数据切分达到离散效果)
连续数据离散化主要包含两个任务:确定区间数、如何将连续数据映射到各个区间内。
数据预处理及特征提取_第6张图片

(5)属性构造

属性构造:利用原有数据构造新的属性。
通过构造新的属性,并加入到现有的属性集合中,属性构造能够提取更有用的信息,挖掘更深层次的内容,提升数据挖掘的效果。

例:由身高与体重构造BMI指标。

三、主成分分析(PCA)

主成分分析:是一种通过线性变换,将原始数据的多个变量组合成相互正交的少数几个能充分反映总体信息的指标,以便于进一步分析。

特点:尽可能保留原始数据的信息、分析后的变量相互独立。

1.主成分分析的数学模型

数据预处理及特征提取_第7张图片
数据预处理及特征提取_第8张图片
数据预处理及特征提取_第9张图片
数据预处理及特征提取_第10张图片

数据预处理及特征提取_第11张图片

2.主成分分析算法

(1)算法求解与推导

首先对数据进行“零—均值规范化”
在这里插入图片描述
标准化处理后的X的每个变量(每一列)的均值为0,方差为1.

PCA的目标是寻找负载矩阵U使得T=XU,T围降维后的矩阵(主元矩阵)。
要求:降维后的各个特征向量(T的列向量)要满足相互正交(线性无关)且尽可能多地表示原始数据信息(方差尽可能大)。


总结

数据不进行清洗,后面分析都会出错。数据清洗也是了解数据特性的过程,只有这样才能为后面数据分析选择适合的方法。
PCA应用:人脸识别、过程监测、法官评分等。PCA可以将高维数据表征围低维数据。

你可能感兴趣的:(大数据基础,python,大数据,机器学习)