在数据收集过程中,由于各种原因可能导致数据收集不全,就会产生缺失值,且这种情况往往无法避免。
因此,缺失值分析是数据处理工作中常见的问题之一,如果处理不当,会导致部分分析过程简单地从分析中丢弃这些有缺失的个案;也可能会使分析结果精度降低,出现偏倚甚至是错误的结论。
另外,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化,部分分析过程无法完成。
缺失值分析有助于解决出不完整的数据造成的若干问题,尽可能全面、有效地利用整个数据库1。
(1)单元缺失:针对需调查的个案进行调查而没有得到个案信息。这种缺失在数据分析阶段常常无能为力。
(2)项目缺失:在调查内容中某些变量的观测结果有缺失。
(1)完全随机缺失:已评价的结果或即将进行的评价结果中,研究对象的缺失率是独立的。即,缺失现象完全随机发生,与自身或其他变量的取值无关。
(2)随机缺失:缺失数据的发生与数据库中其他无缺失变量的取值有关。某一观察值的缺失的概率仅依赖已有的观察结果,不依赖未观察到的结果。这是最常见的缺失机制。
(2)非随机缺失:数据的缺失不仅与其他变量的取值有关,缺失率与缺失数据有关,也和自身有关。这种缺失大都不是由偶然因素所造成的,常常是不可忽略的。
最常见、最简单的处理缺失值数据的方法,使用这种方法时,如果任何个案在某一变量含有缺失数据的话,就把对应的个案从分析中剔除。
缺失值替代,即在SPSS“转换”选项卡中的“替换缺失值”菜单过程。此过程将所有的记录看成一个序列,然后采用某种指标对缺失值进行填充。
(1)缺失值的描述和快速诊断:用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例为多少,是否与其他变量取值有关,从而得知这些缺失值出现是否会影响分析结论。
(2)得到更精确的统计量:提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量将更加可靠。
(3)用估计值替换缺失值:使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。
相关笔记:
本文主要根据个人学习(数据分析技术MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!
数据分析技术MOOC ↩︎