插值法补齐缺失数据_一种挽救你缺失数据的好方法——多重补插

原标题:一种挽救你缺失数据的好方法——多重补插

缺失数据——研究中的绊脚石

在医学研究中,我们经常会碰到缺失数据。无论是因为实验设计的问题,或是检测手段精度,又或是医学实验中的不可抗力因素。一旦数据没有被记录下来,就会产生数据缺失的情况。之所以缺失数据会成为我们研究的绊脚石,其原因在于缺失会产生数据信息的损失,而常规的分析方法与统计学均建基于无缺数据的基础上,因此数据缺失处理是医学研究中必须首先解决的问题。

缺失数据的处理是有一定难度的,其根源在于缺失的原因、数量比例与分布均会对我们的处理方法的选择产生影响。缺失的类型已经有不少著作进行了详细的研究,一般可分为完全随机缺失(MCAR)、随机缺失(MAR)与其它缺失(NMAR)。具体说明可以参考之前医学方相关的文章。

一般而言,所有数据缺失的处理方法仅适合于MCAR与MAR的处理,而对于NMAR最好是能重新设计实验或获取数据;而且缺失值的数据处理方法仅适用于客观数据的查漏补缺,对于主观的数据补缺的准确性没有保证。此外,缺失数据的类型与数量、分布也会影响我们处理方法的选择。当数量较少时(如小于5%)我们可以考虑删除或成对删除的方式处理,好处是方便简单,代价是损失了信息,对于重要的指标最好不使用此方法;而当缺失的数据较多时,就需要轮到我们今天的主角“数据补插”法大展身手了。数据补插可以分为以下几类:均值/众值补插、模型补插、多重补插等。几种方法各有特点,今天我们就先谈谈“多重补插”及其使用方式。

1

什么是多重补插法?

多重插补(Multiple Imputation,MI)的是基于各种模型(如回归、决策树、贝叶斯估计等方法)。简单而言:该方法认为缺失值是随机的,它的值可以

你可能感兴趣的:(插值法补齐缺失数据)