【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据

 

介绍:

在统计理论中,肖维勒准则(以William Chauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。
 

肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带,它应该合理地包含数据集的所有n个样本。通过这样做,来自位于该概率带之外的n个样本的任何数据点可以被认为是异常值,从数据集中移除,并且可以计算基于剩余值和新样本大小的新的均值和标准偏差。

这种异常值的识别将通过找到与平均值(max)周围的概率带边界相对应的标准偏差的数量并将该值与可疑异常值与平均值之间的差值的绝对值进行比较来实现。通过样本标准差。(公式1)

公式1:

 

解释:

  • Dmax = 允许的最大偏差,
  • | . | = 绝对值,
  • x = 怀疑异常值,
  • μ = 样本均值,
  • σ = 样本标准差.

 

 

为了被认为包括样本中的所有n个观测值,概率带(以均值为中心)必须仅考虑n-\tfrac{1}{2}样本(如果n  = 3,则在概率带中必须仅考虑2.5个样本)。

实际上我们不能有部分样本,因此n-\tfrac{1}{2}n  = 3时为2.5 )约为  n。任何小于n-\tfrac{1}{2}的东西大约是n  - 1(如果n  = 3 则为2)并且无效,因为我们想要找到包含n个观测值的概率带,而不是n  - 1个样本。简而言之,我们正在寻找概率P,等于样本中的n-\tfrac{1}{2}(公式2)。

公式2:

p=1-(\frac{1}{2}n)

解释:

  • P =以样本均值为中心的概率带,
  • n =样本量。

 

 

数量\tfrac{1}{2n}对应于由正态分布的两个尾部表示的组合概率,其落在概率带  P之外。为了找到与P相关的标准偏差水平,由于其对称性,仅需要分析正态分布的尾部之一的概率(公式3)。

公式3:

P_{Z}=\frac{1}{4n}

解释:

  • z =由正态分布的一条尾部表示的概率,
  • n =样本量。

 

 

等式1类似于Z得分方程(公式4)。

公式4:

Z=\frac{(x-\mu )}{\sigma }

解释:

  • Z = z-score,
  • x =样本值,
  • μ = 0(标准正态分布的平均值),
  • σ = 1(标准正态分布的标准偏差)。

 

基于等式4,找到max(Eq.1)在z得分表中找到对应于z的z得分。 max等于z的z分数。使用此方法可以确定任何样本大小的max。在Excel中,可以使用以下公式找到max = ABS(NORM.S.INV(1/(4n))).(NORM.S.INV函数:返回标准正态累积分布函数的反函数值。 该分布的平均值为 0,标准偏差为 1。)

 

计算:

要应用Chauvenet标准,首先要计算观察数据的平均值和标准差。根据可疑数据与平均值的差异,使用正态分布函数(或其表)确定给定数据点处于可疑数据点值的概率。将此概率乘以所采用的数据点数。如果结果小于0.5,则可以丢弃可疑数据点,即,如果从均值获得特定偏差的概率小于\tfrac{1}{2n},则可以拒绝读数。

 

示例:

例如,假设在若干试验中通过实验测量值为9,10,10,10,11和50.平均值为16.7,标准偏差为16.34。50与16.7相比有33.3,稍微超过两个标准偏差。从平均值获取数据超过两个标准偏差的概率大约为0.05。进行了六次测量,因此统计值(数据大小乘以概率)为0.05×6 = 0.3。因为0.3 <0.5,根据Chauvenet的标准,应该丢弃50的测量值(留下10的新均值,标准差为0.7)。

 

缺点:

删除异常值数据是一项备受争议的做法,许多科学家和科学教师不赞成这种做法。虽然Chauvenet的标准提供了一种客观和定量的数据拒绝方法,但它并没有使这种做法在科学上或方法上更合理,特别是在小型集合或无法假定正态分布的情况下。在实践领域中,拒绝异常值是更可接受的,其中正在测量的过程的基础模型和测量误差的通常分布是确信的。

 

参考:https://en.wikipedia.org/wiki/Chauvenet%27s_criterion#Example

你可能感兴趣的:(Big,Data,Analysis,数据科学)