缺失数据(missing data)的处理(理论)

缺失数据(missing data)的处理(理论)_第1张图片
expectation maximization 期望最大化
maximum likelihood 最大似然
case substitution
prior knowledge 先验知识

图片来源:https://github.com/dataprofessor/infographic

缺失值的分类

对原始数据进行缺失值检查。
若无缺失数据,则继续进行其他数据预处理步骤,进而进行机器学习模型的建立。
若有缺失数据,按照数据缺失机制可分为:

  • (1) 完全随机缺失(missing completely at random, MCAR)
    数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性。简单来说,就是数据丢失的概率与其假设值以及其他变量值都完全无关。
  • (2) 随机缺失(missing at random, MAR)
    随机丢失意味着数据丢失的概率与丢失的数据本身无关,而仅与部分已观测到的数据有关。也就是说,数据的缺失不是完全随机的,该类数据的缺失依赖于其他完全变量。
  • MCAR与MAR均被称为是可忽略的缺失形式.可以根据其出现情况删除缺失值的数据,同时,随机缺失可以通过已知变量对缺失值进行估计。
  • (3) 非随机缺失(not missing at random, NMAR), 亦称为不可忽略的缺失(non-ignorable missing ,NIM),也有研究将其称为MNAR(missing not at random)
    数据的缺失与不完全变量自身的取值有关。分为两种情况:缺失值取决于其假设值(例如,高收入人群通常不希望在调查中透露他们的收入);或者,缺失值取决于其他变量值(假设女性通常不想透露她们的年龄,则这里年龄变量缺失值受性别变量的影响)。
  • 对于不可忽略的缺失,删除包含缺失值的数据可能会导致模型出现偏差,同时,对数据进行填充也需要格外谨慎。
  • ps:在数据集中,常将不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量

成列删除(listwise deletion):删除掉所有存在缺失值的个案。
成对删除(pairwise deletion):在进行多变量的联立时,只删除掉需要执行的变量的缺失数据。

缺失值的处理方法

缺失数据(missing data)的处理(理论)_第2张图片

1.删除
将存在遗漏信息属性值的样本(行)或特征(列)删除,从而得到一个完整的数据表。
优点:简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比较小的情况下非常有效。
缺点:当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。
补充:成对删除(pairwise deletion):
在进行多变量的联立时,只删除掉需要执行的变量的缺失数据。
在重要变量存在的情况下,成对删除只会删除相对不重要的变量行。这样可以尽可能保证充足的数据。该方法的优势在于它能够帮助增强分析效果,但是它也有许多不足。它假设缺失数据服从完全随机丢失(MCAR)。如果你使用此方法,最终模型的不同部分就会得到不同数量的观测值,从而使得模型解释非常困难。
补充:成列删除(listwise deletion):删除掉所有存在缺失值的个案。

2.插补

  • 人工填写(filling manually),一般不推荐

  • 特殊值填充(Treating Missing Attribute values as Special values)
    将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如所有的空值都用“unknown”填充。一般作为临时填充或中间过程。有时可能导致严重的数据偏离,一般不推荐

  • 平均值填充(Mean/Mode Completer)
    将初始数据集中的属性分为数值属性非数值属性来分别进行处理。
    如果空值是数值型的,就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值; 如果空值是非数值型的,就根据统计学中的众数原理,用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。

  • 条件平均值填充法(Conditional Mean Completer)。在该方法中,用于求平均的值并不是从数据集的所有对象中取,而是从与该对象具有相同决策属性值的对象中取得。它是用现存数据的多数信息来推测缺失值。

  • 热卡填充(Hot deck imputation,或就近补齐)
    对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单,且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准,主观因素较多。

  • K最近距离邻法(K-means clustering)
    先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
    在本方法中,先根据某种距离度量选择出k个“邻居”,他们的均值就被用于插补缺失数据。这个方法要求我们选择k的值(最近邻居的数量),以及距离度量。KNN既可以预测离散属性(k近邻中最常见的值)也可以预测连续属性(k近邻的均值)。
    根据数据类型的不同,距离度量也不尽相同:
    1)连续数据:最常用的距离度量有欧氏距离,曼哈顿距离以及余弦距离。
    2)分类数据:汉明(Hamming)距离在这种情况比较常用。对于所有分类属性的取值,如果两个数据点的值不同,则距离加一。汉明距离实际上与属性间不同取值的数量一致。
    KNN算法优点:它易于理解也易于实现。其非参数的特性在某些数据非常“不寻常”的情况下非常有优势。
    KNN算法缺点:在分析大型数据集时会变得非常耗时,因为它会在整个数据集中搜索相似数据点。此外,在高维数据集中,最近与最远邻居之间的差别非常小,因此KNN的准确性会降低。

  • 使用所有可能的值填充(Assigning All Possible values of the Attribute)
    用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是,当数据量很大或者遗漏的属性值较多时,其计算的代价很大。一般不推荐。

  • 回归(Regression)
    基于完整的数据集,建立回归方程,或利用机器学习中的回归算法。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计。较常用。但是要注意——防止过拟合

  • 期望值最大化方法(Expectation maximization,EM)
    EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替执行两个步骤:E步(Excepctaion step,期望步),在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望;M步(Maximzation step,极大化步),用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

  • 多重插补(Multiple Imputation,MI)
    多重填补方法分为三个步骤:
    1)插补:将不完整数据集缺失的观测行估算填充m次(图中m=3)。请注意,填充值是从某种分布中提取的。模拟随机抽取并不包含模型参数的不确定性。更好的方法是采用马尔科夫链蒙特卡洛模拟(MCMC,Markov Chain Monte Carlo Simulation)。这一步骤将生成m个完整的数据集。
    2)分析:分别对(m个)每一个完整数据集进行分析。
    3)合并:对来自各个填补数据集的结果进行综合,产生最终的统计推断,这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本,这样计算出来的统计推断可能受到空缺值的不确定性的影响。
    缺失数据(missing data)的处理(理论)_第3张图片

  • C4.5方法
    通过寻找属性间的关系来对遗失值填充。它寻找之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。

3.不处理缺失值
不处理缺失值,直接在包含空值的数据上进行数据挖掘的方法。其中包括:贝叶斯网络和人工神经网络等。
贝叶斯网络提供了一种自然的表示变量间因果信息的方法,用来发现数据间的潜在关系。在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。人工神经网络也类似。

参考资料:
数据分析——缺失值处理详解(理论篇)

你可能感兴趣的:(机器学习,数据挖掘,机器学习,big,data)