【数据异常校验】拉依达准则( PauTa Criterion 或 3σ准则) 处理异常数据

拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。

这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提(样本>10),当测量次数少的情形用准则剔除粗大误差是不够可靠的。

 

3σ法则为:

  • 数值分布在(μ-σ,μ+σ)中的概率为0.6827
  • 数值分布在(μ-2σ,μ+2σ)中的概率为0.9545
  • 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%.

 

正态分布:

【数据异常校验】拉依达准则( PauTa Criterion 或 3σ准则) 处理异常数据_第1张图片

深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值之68%,根据正态分布,两个标准差之内的比率合起来为95%;三个标准差之内的比率合起来为99%

 

算法实现:

  1. 首先需要保证需要检验的数据列大致上服从正态分布;
  2. 然后计算需要检验的数据列的标准差;
  3. 最后比较数据列的每个值,是否大于标准差的3倍;
  4. 大于3倍标准差的删除该样本。

 

你可能感兴趣的:(拉依达准则,3σ准则,Big,Data,Analysis,数据科学)