箱线图怎么判断异常值_箱形图为什么能检测异常值,原理是什么?

1. 首先,你要明白什么是异常值,如何处理异常值

有时候数据集中会包含一个或多个数值异常大或异常小的值,这样的极端值称为异常值(outlier)。

对于异常值,我们该怎么办呢?

第1步,你需要采用一定的技术手段从大量数据中找出哪些数值可能是异常值。

第2步,然后对找到的这些异常值的准确性进行检查,以确定如何处理异常值

处理异常值一般有3种办法:

1)异常值可能是一个被错误记录的数据值,如果是这样,就可以在进一步分析之前把它修正。

例如在全国人口系统中,出生了一个叫王思聪的婴儿,王健林前来登记,你手动将王思聪的性别错误输入成“女”。这种情况下的异常值,就需要进一步核实对应人把它修正。

2)异常值也可能是一个被错误包含在数据集总的值,如果是这样,则可以把它删除。

例如在全国人口系统中,你不小心把你家狗狗的姓名“王二狗”记录进去了,记录的年龄是10岁,身高是1米,这明显不符合正常情况下的10岁儿童身高,进一步识别出异常值后,进行核对,发现是错误数据,删掉。

3)异常值也可能是一个反常的数据值,它被正确记录并且属于数据集,这种情况下,它应该被保留。

例如你公司发布了一款吊炸天的产品,没想到全球用户都喜欢用,发布会当天销售量暴增。这时候的异常值代表了销售的实际数值,应该保留。

2. 如何自动识别出异常值

在了解了异常值和对异常值的处理知识后,可以用四分位数是自动识别出可能的异常值的。

这个方法叫Tukey‘s test方法,用于计算出数据集中最小估计值,和最大估计值。这样超出最小估计值和最大估计值范围的数值就可能是异常值了。如何计算呢?

最小估计值和最大估计值的计算公式如图中列出。可以根据不同的数据分析目对k取值。一般k=1.5,计算出的是中度异常的范围。

K=3计算出的是极度异常的范围。我们通过下面图片用图形的方式看下这个公式是如何计算出数值的范围的。

下面图片红色是k=1.5时,计算出的是中度异常的范围。

蓝色是K=3计算出的是极度异常的范围。

超出这个范围的数值就有可能是异常值,这样我们就可以从大量数据中自动识别出异常值。

你可能感兴趣的:(箱线图怎么判断异常值)