机器学习数据预处理之离群点、高杠杆点、强影响点

对于一组数据拟合模型时,我们希望保持拟合结果不要过度依赖于一个或几个观测,于是我们想知道这种点是否存在。离群点、高杠杆点、强影响点,都是数据观测中常见的异常数据形式,下面分别从概念,检测方法和处理方法三方面来谈论

 

一 概念

离群点:残差很大的观测,响应变量中的异常值

机器学习数据预处理之离群点、高杠杆点、强影响点_第1张图片

机器学习数据预处理之离群点、高杠杆点、强影响点_第2张图片

虚线和实线分别是包含红点在内和不包含红点在内训练出来的回归模型。可以看到,两条回归线之间相差不大,因此,该红点不是强影响点。

同时,该红点并没有离其他自变量的值很远,因此也不是高杠杆点。但是它离回归线很远(残差大),因此该红点是离群点。

高杠杆点:x空间中异常的观测,预测变量中的异常值

机器学习数据预处理之离群点、高杠杆点、强影响点_第3张图片

机器学习数据预处理之离群点、高杠杆点、强影响点_第4张图片

虚线和实线分别是包含红点在内和不包含红点在内训练出来的回归模型。可以看到,两条回归线之间相差不大,因此,该红点不是强影响点。

同时,该红点离回归线不远,因此也不是离群点。但是它离其他自变量的值很远,因此该红点是高杠杆点。

强影响点:对模型拟合有较大影响的点,如果删除该点会导致拟合模型的实质性变化

机器学习数据预处理之离群点、高杠杆点、强影响点_第5张图片

机器学习数据预处理之离群点、高杠杆点、强影响点_第6张图片

虚线和实线分别是包含红点在内和不包含红点在内训练出来的回归模型。可以看到,两条回归线之间相差较大,因此,该红点是强影响点。

同时,该红点离其他自变量的值较远,因此是高杠杆点。它离回归线也很远(残差大),因此该红点也是离群点。

注意:

1,离群点不一定是强影响点,强影响点也不一定是异常点

2,高杠杆点不一定是强影响点,强影响点也不一定是高杠杆点

二 检测方法

上面的图例是简单线性回归,在实际应用中,通常有多个自变量,因此在高维空间中,我们不可能通过画图来判断某个观测值是否是异常点或高杠杆点或强影响点。我们可以通过其他的统计指标来进行检测。

1,离群点检测

(1)标准化残差(standardized residuals):。相对于普通残差来说,消除了量纲的影响。如果标准化残差的绝对值>3,该观测值即判定为异常值。可用R的rstandard()方法计算出标准化残差。

(2)学生化残差(studentized residuals):。相对于标准化残差,还去除了高杠杆值的影响。如果学生化残差的绝对值>3,该观测值即判定为异常值。可用R的outlierTest()方法求得有最大学生化残差的观测值和Bonferroni调整后的p值,从而做出判断。

 

2,高杠杆点检测

 判断高杠杆值点的方法,是计算点的杠杆值,杠杆值大于两倍平均值的观测就是x空间中的异常观测

 

3,强影响点检测

(1)Cook距离法(Cook's D):。Cook距离直接总结了去除某一个数据点之后,其他样本拟合值的变化,相当于综合了残差和杠杆值的信息。可用R的cooks.distance()方法计算出Cook's D。

  • 如果 Di 大于 0.5,那么第i个观测值可能是强影响点,需要对其进行进一步查看。
  • 如果 Di 大于 1,那么第i个观测值很可能就是强影响点。
  • 如果 Di 小于 0.5,那么第i个观测值不是强影响点。

(2)Dffits(Difference in Fits):比较去除某一个数据点和包含此数据点的预测值y的变化。可以调用R的influence.measures()做诊断。

(3)Dfbetas:比较去除某一个数据点和包含此数据点的每个变量参数的变化。可以调用R的influence.measures()做诊断。

 

三 如何处理离群点、高杠杆点和强影响点

离群点、高杠杆点和强影响点观测可能是信息最多的数据点,他们不应该被没有道理的自动丢弃。相反,我们应该检查清楚它们为什么会异常或具有强影响。基于这些检查,才能采取适当的,正确的措施,包括:

1.纠正错误数据

2.删除异常点

3.降低异常点的权重

4.变换数据

5.考虑不同的模型

6.重新设计实验或抽样

7.收集更多数据

 

参考文献

1.在统计学中,异常值,杠杆点,离群点,影响点有什么区别?又如何判断?https://www.applysquare.com/topic-cn/ShiBHw1ny/

2.异常点VS高杠杆点VS强影响点(Outlier ,High Leverage Point,Influential Point)https://my.oschina.net/u/4397001/blog/3421364

3 《例解回归分析》(原书第五版)(美)Samprit Chatterjee   Ali S.Hadi 著

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习,算法,数据挖掘)