数据预处理-缺失值处理

数据预处理-缺失值处理

  • 缺失值类型
  • 不完全变量
    • 完全随机缺失
    • 随机缺失
    • 完全非随机缺失
  • 缺失值补全
    • 1-均值查补
    • 2-同类均值插补
    • 3-建模预测
    • 4-高维映射
    • 5-多重插补
    • 6-手动插补

数据预处理完整目录

缺失值类型

在对缺失数据进行预处理前,了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量

不完全变量

完全随机缺失

missing completely at random, MCAR
指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。如家庭地址缺失。

随机缺失

mission at random,MAR
指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。
如财务数据缺失情况与企业的大小有关。

完全非随机缺失

mission not at random,MNAR
指的是数据的缺失与不完全变量自身的取值有关。
如高收入人群不愿意提供家庭收入

缺失值补全

1-均值查补

将初始数据集中的属性分为数值属性和非数值属性来分别进行处理。
非数值型缺失值:根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值,补齐该缺失的属性值。比如一个学校的男生和女生的数量,男生500,女生50,那么对于其余的缺失值我们会用人数较多的男生来填补。
数值型缺失值:使用平均值或者中位数填补,比如一个班级学生的身高特征,对于一些同学缺失的身高值就可以使用全班同学的平均值或中位数来填补。

优点:简单
缺点:可能会引入噪音。或者会改变特征原有的分布(数据倾斜、数据分布畸变)

一般如果特征分布为正态分布时,使用平均值效果比较好。否则使用中位数比较好。
如果缺失值是随机缺失,使用平均值会比较好,因为可以使数据分布不发生畸变。

2-同类均值插补

原理:用无监督机器学习聚类的方法预测缺失变量的类型,再以该类型的均值插补。
所有样本进行聚类划分,然后通过划分的种类的均值对各自类中的缺失值进行填补。
假设 X = ( X 1 , X 2 . . . X p ) X=(X_1,X_2...X_p) X=(X1,X2...Xp)为信息完全的变量, Y Y Y为存在缺失值的变量,那么首先对 X X X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和 Y Y Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。

3-建模预测

将缺失的属性作为预测目标来预测,将数据集按照是否含有特定属性的缺失分为两类,利用现有的机器学习算法对待预测数据集的缺失值进行预测。例如回归预测,即基于完整的数据集,建立回归方程。对于有缺失值的特征值,将已知特征代入模型来评估未知特征,以此估值来填充。
个人感觉:以假设来假设…

4-高维映射

原理:将属性映射到高维空间
对于分类型变量:男、女或缺失的情况,采用One-hot编码,映射成三个变量,是否男、受否女、是否缺失
对于连续型变量,首先对连续变量进行变量分箱,采用一定的数据平滑方式(平均值/中值/箱边界)进行离散化,然后增加是否缺失这种维度

优点:精准,保留了原始数据大部分信息,也未添加任何额外信息
缺点:计算量提升,只有在样本量非常大的时候效果还好,否则会因为数据过于稀疏,效果很差。

5-多重插补

原理:多重插补认为待插补的值是随机的,它的值来自已观测到的值。实践上通常是估计出待插补的值,再加上不同的噪音,形成多组可选插补值,根据某种选择依据,选择最合适的插补值

1.为每个缺失值产生一套可能的插补值,这些值反映了无响应模型的不确定性;
2.根据数据缺失机制、模式以及变量类型,可分别采用回归、预测均值匹配(predictive mean matching,PMM)、趋势得分(propensity score,PS)、Logistic回归、判别分析以及马尔科夫链蒙特卡洛(Markov Chain Monte Cario,MCMC)等不同的方法进行填补
3.评估填补值是否可信。插补值应该接近数据。显示不能的数据值(例如负数、怀孕的父亲)不应该出现在插补值的数据中。插补值应尊重变量之间的关系,并反应其“真实”值的适当不确定性。根据评分函数进行选择,产生最终的插补值。

6-手动插补

原理:根据业务知识,具体问题具体分析,手动对缺失值进行插补。

你可能感兴趣的:(#,数据预处理,数据缺失值处理)