几种常用的数据校验(异常检测)总结(3σ、肖维勒准则、狄克逊准则、格拉布斯准则、皮尔士准则、卡方检验、T检验等等)

对统计数据分析,异常数据检测以及排除时,主要有两种方法:物理判别法和统计判别法

  • 物理判别法:人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断,随时剔除。
  • 统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。当物理识别不易判断时,一般采用统计识别法。

 

数据预测检测和处理系列文章

  • 拉依达准则( PauTa Criterion 或 3σ准则) 处理异常数据
  • 肖维勒准则(Chauvenet Criterion)处理异常数据
  • 狄克逊准则(Dixon Criterion)处理异常数据
  • 格拉布斯准则(Grubbs Criterion)处理数据异常
  • 皮尔士准则(Peirce Criterion)处理异常数据
  • 卡方检验(chi-squared test)处理异常数据
  • T检验或T测试(T-test)
  • Scikit-learn实现隔离森林(Isolation Forest)算法进行异常值检测
  • Scikit-learn实现局部异常因子(LOF)的无监督异常值检测
  • 异常检测方法
  • 隔离森林(Isolation Forest)算法

以上文章都可以在本人的Big Data Analysis文章类别里找到,是本人精心汇总的知识,感谢大家阅读,有错误欢迎指出。

后续会增加该系列文章。

你可能感兴趣的:(Big,Data,Analysis,数据科学)