异常值检验的方法

鄙人学习笔记
参考文献:《计量经济学模型及R语言应用》-王斌会


文章目录

    • 异常值检验的方法
      • 原始残差检测方法
      • 杠杆值检测方法
      • 学生化残差检测方法


异常值检验的方法

对于单变量线性回归,异常值的检测很简单,只需在直角坐标上作出散点图就能很直观地识别出哪些是异常值。
在多元线性回归中,特别是样本容量较大时,检测的方法就复杂多了。一般来说,作出矩阵散点图对发现异常值有一定的帮助,但是散点图只能反映变量两两之间的关系,所以并不是一个很好的办法。常用的办法是通过检测各类残差来发现异常值。

原始残差检测方法


当样本数据本身对模型影响足够大时,会使模型尽可能地向自己身边靠拢,所以尽管该样本的残差并不会很大,但是模型的拟合程度已经减小。因此,除了原始残差方法外,还需要其他方法来辅助。

杠杆值检测方法

异常值检验的方法_第1张图片
可以看出,假定的随机误差项是同方差的,但是残差的方差却不是相等的。它与H矩阵主对角线上的值密切相关。当hi的值很大时(比如接近于1),残差的方差会很小。反映在图形上,显示为该样本把回归直线向自己身边拉近,从而对整个模型的拟合性造成很大影响,所以对于hi值特别大的样本,一般判定界限为2p/n(注意:这里的p需包含常数项)。这时,我们称大于2p/n的点为高杠杆值点

学生化残差检测方法

残差的重要应用之一是根据它的绝对值大小判定异常值。但是普通残差有var(ei)=(1-hi)*σ2,这个方差与因变量y的度量单位以及hi有关。因此在判定异常点的情形时,直接比较一般残差是不合适的,需要对其进行标准化,得到学生化残差:

可以证明cov(ri, rj)一般很小,所以应用上常常近似的认为ri, rj不相关,并进一步用正态分布作为ri的近似分布,即ri近似服从N(0, 1)分布且相互独立。
当|ri| > 3时,可认为第i个点为异常点。

你可能感兴趣的:(统计学)