缺失值的识别与处理

缺失值(missing data)是指单元格中应有而未能记录的数据。

分为完全随机缺失(missing completely at random)、随机缺失(missing at random)和非随机缺失(missing at non-random)。     P601 《医学统计学》第四版

当缺失现象随机发生,与其他变量或自身取值无关的时候,这类缺失为完全随机缺失;当缺失现象随机发生,但与其他无缺失变量的取值相关且与自身取值无关的时候,此类为随机缺失;当缺失现象的发生与自身取值和其他变量的取值相关的时候,为非随机缺失。

P601 《医学统计学》第四版

随机缺失,例如老年人骨质疏松的研究,会因为年纪大了不便行动,而造成缺失;非随机缺失,如对收入的研究,收入越高,越不愿意填写收入。


缺失值的处理

1.删除缺失值存在的个体或变量


2.估计缺失值


3.建立哑变量


4.需要注意的问题

①首先考虑缺失值的类型,是否为随机缺失。若为大样本随机缺失,推荐使用期望最大法,结合多重填补法更佳。

②若在分析中对缺失值进行了估计,建议分别用缺失值代替后的数据集与删除缺失值后仅完整数据组成的数据集进行重复分析。尤其当样本量较小,数据缺失比例较大,或数据缺失类型为非随机缺失时,这个步骤尤其重要。

你可能感兴趣的:(缺失值的识别与处理)