【067期】SPSS遇到缺失值怎么办?删除还是替换?

8遇到缺失值怎么办?删除还是替换?
8.1导读

在SPSS 中如果数据包含缺失值,会导致具体变量计算和分析时实际有效样本数据减少, 不管是 pairwise delete 还是 listwise delete 的缺失值处理方法。另外,如果用Amos 做结构方程模型,分析变量存在缺失值的话拟合指数会报告不全(如GFI、AGFI 缺失)。因此,处理缺失值是非常重要的环节。

8.2解析

缺失值的处理大体上有两种方法:

第一,删除有缺失值的个案;第二,缺失值替换。

哪一种方法好呢? 如果样本量本身很大,那么删除个案法影响不大;但如果样本量不是很大,而存在缺失值的变量又很多,删除法会使样本量明显减少,对研究不利。那是不是缺失值替换就好呢?也不尽然。因为如果某个变量存在比较多的缺失值,用均值替换显然对结果影响很大。此外,如果一个个案本身有多个缺失值,比如 10%以上的题目存在缺失值, 那么这个个案数据判断为无效个案会更好。
这里又涉及到一个问题,缺失值比例多大可以认定为无效数据呢?个人认为,单纯从数量的角度来看,一个个案有 10%以上的变量存在缺失值的话就可以判断该个案数据无效。但有时候我们不能笼统看缺失值的数量和比例,还要看缺失值的分布问题,例如心理学、教育学、管理学量表是分多个维度的,如果缺失值分散于不同的维度,那么较大比例的缺失值可能对整体个案数据影响不大;但如果缺失值集中于某个维度或一两个维度,简单说,同一个维度中有多个缺失值,那么比例较小的缺失值也可以导致整个维度无效,以至于整个个案样本数据无效。
那么,我们如何判断整个样本数据中有多少个变量或题目存在缺失值,以及有多少个个案的数据存在缺失值,每个个案存在缺失值的变量个数是多少? 方法其实很简单,采用SPSS 的“统计个案内数值个数”功能即可。

你可能感兴趣的:(教育)