常用异常值检测方法

https://baijiahao.baidu.com/s?id=1638194148356686894&wfr=spider&for=pc

方法 1—均方差

在统计学中,如果一个数据分布近似正态,那么大约 68% 的数据值会在均值的一个标准差范围内,大约 95% 会在两个标准差范围内,大约 99.7% 会在三个标准差范围内。

 

因此,如果你有任何数据点超过标准差的 3 倍,那么这些点很有可能是异常值或离群点。

方法 2—箱形图

 

箱形图是数字数据通过其四分位数形成的图形化描述。这是一种非常简单但有效的可视化离群点的方法。考虑把上下触须作为数据分布的边界。任何高于上触须或低于下触须的数据点都可以认为是离群点或异常值。这里是绘制箱形图的代码:

import seaborn as snsimport matplotlib.pyplot as pltsns.boxplot(data=random_data)

上述代码绘制了下图。正如你所看到的,任何高于 75 或低于-35 的点都被认为是离群点。结果和上面方法 1 非常接近。

 

箱形图剖析:

四分位间距 (IQR) 的概念被用于构建箱形图。IQR 是统计学中的一个概念,通过将数据集分成四分位来衡量统计分散度和数据可变性。

简单来说,任何数据集或任意一组观测值都可以根据数据的值以及它们与整个数据集的比较情况被划分为四个确定的间隔。四分位数会将数据分为三个点和四个区间。

四分位间距对定义离群点非常重要。它是第三个四分位数和第一个四分位数的差 (IQR = Q3 -Q1)。在这种情况下,离群点被定义为低于箱形图下触须(或 Q1 1.5x IQR)或高于箱形图上触须(或 Q3 + 1.5x IQR)的观测值。

 

 

 

你可能感兴趣的:(mixture)