【数据异常校验】狄克逊准则(Dixon Criterion)处理异常数据

在统计学中,Dixon的Q检验或简单的Q检验用于识别和拒绝异常值。假设正态分布,根据Robert Dean和Wilfrid Dixon以及其他人的说法,这个测试应该在数据集中谨慎使用,并且不要超过一次。要对错误数据应用Q测试,请按增加值的顺序排列数据并按定义计算Q

 

其中的差距是绝对差问题的异常和最近的数它之间。如果Q  >  表,其中表是对应于样本大小和置信水平的参考值,则拒绝可疑点。请注意,使用Q测试只能从数据集中拒绝一个点。

 

示例

考虑数据集:

现在按顺序重新排列:

我们假设0.167是异常值。计算Q

有10个观测值和90%置信度,Q  = 0.455> 0.412 =  表,因此我们得出结论,0.167确实是异常值。然而,置信度为95%,Q  = 0.455 <0.466 =  表 0.167不被视为异常值。这意味着对于这个例子我们可以90%确定0.167是异常值,但我们不能确定95%。

McBane指出:Dixon提供的相关测试旨在搜索多个异常值,但它们的使用频率低于旨在消除单个异常值的r 10或Q版本。

 

该表总结了双尾 Dixon Q检验的极限值。

【数据异常校验】狄克逊准则(Dixon Criterion)处理异常数据_第1张图片

 

优点:

对数据值中只存在一个异常值时,效果良好。

 

缺点:

当异常值不止一个且出现在同侧时,检验效果不好。

尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。

 

参考:https://en.wikipedia.org/wiki/Dixon%27s_Q_test

 

你可能感兴趣的:(狄克逊准则法,Dixon,criterion,处理数据异常,Big,Data,Analysis,数据科学)