含有缺失值特征之间的相关性分析

缺失的原因

方法1 Complete case analysis

假如要分析特征1和特征2之间的相关性,只考虑那些特征1和特征2都没有缺失的样本;

方法2 multiple imputation 多重插值

根据对某个缺失值构造的估计值个数的多少,可以分为单一插补法和多重插补法。
单一插补法:为每一个缺失值构造一个估计值,再对插补估计值后的数据集使用针对完整数据集分析的方法进行统计分析。
比如使用均值填充,但是单一插值扭曲了特征原始的分布,而且由于同一数值的多次出现使得特征的方差偏低,导致估计出现偏差。

多重插补法:主要思想是为每个缺失值插补m个可能的估计值,这些值反映了缺失值的不确定性,这样就形成了m个完整数据集;对每个完整数据集分别使用相同的针对完整数据集的方法来进行分析得到m个分析结果;综合m个插补数据集的结果,得到最终对目标变量的统计推断。

含有缺失值特征之间的相关性分析_第1张图片
含有缺失值特征之间的相关性分析_第2张图片

你可能感兴趣的:(笔记杂)