怎样处理缺失数据(二)处理缺失数据基本方法分类

处理缺失数据的方法可分为以下几类:

1. 只保留观察数据 (Procedures based on completely recorded units)

这种方法去除所有在某一变量上有缺失数据的纪录,只保留所有数据完整的纪录。
优点:容易实施
缺点:只适用于缺失数据较少的数据,可能产生较大误差。

2. 加权 (Weighting procedures)

这种方法也是通过对现有未缺失数据通过以下公式进行加权处理

  y ˉ H K = ∑ i = 1 n ( π i p ^ i ) − 1 y i ∑ i = 1 n ( π i p ^ i ) − 1 \ \bar y_{HK} = \frac{\sum_{i=1}^n (\pi_i \hat p_i)^{-1}y_i}{\sum_{i=1}^n (\pi_i \hat p_i)^{-1}}  yˉHK=i=1n(πip^i)1i=1n(πip^i)1yi
在这里,
p ^ i 是 未 缺 失 数 据 单 位 i 的 概 率 估 计 π i 是 已 知 未 缺 失 变 量 包 含 在 样 本 中 的 概 率 \hat p_i 是未缺失数据单位i的概率估计\\ \pi_i 是已知未缺失变量包含在样本中的概率 p^iiπi

3. 填补(Imputation)

这种方法与上两种方法有着本质上的不同就是不仅仅单纯忽略缺失值,而是通过现有完整的数据来填补缺失值。
常用的标准方法有:

  1. 热卡填充(hot deck imputation)即就近补齐
    这种方法简单的通过一些现有的相似数据来补充缺失数据。
  2. 均值补齐(mean imputation)
    用现有数据的均值来填充缺失数据。
  3. 回归补齐(regression imputation)
    先依据已知数据建立一个回归模型,再通过回归模型预测缺失数据。

然而我们不能完全照搬这些标准方法,针对不同数据的不同特点要做一些调整。

4. 建立模型(Model-based methods)

我们对未缺失的数据建立模型,然后基于模型中似然(likelihood)或后验概率(posterior distribution)进行分析。
这个方法比以上方法要复杂但更为灵活。

你可能感兴趣的:(数据挖掘,大数据,数据分析,数据挖掘)