描述性统计:寻找异常数据:分位数和异常值

1、数学定义和使用指南

分位数是指把一组数据按大小排序后划分为若干份,使每份的数据个数相等或差不多相等。常用的分位数有四分位数、中位数等。

四分位数是一种常用的分位数,它把一组数据分为四份,分别是最小值到第一四分位数、第一四分位数到中位数、中位数到第三四分位数、第三四分位数到最大值。第一四分位数、中位数和第三四分位数分别记作Q1、Q2、Q3。四分位距(IQR)是Q3和Q1的差值。

异常值是指数据集中与其他观测值明显不同的值,也称偏离值或离群值。异常值可能是由测量或记录误差、数据输入错误、系统故障等因素引起的。异常值的出现可能会对数据分析造成一定的影响,因此需要对其进行处理。常用的处理方法包括删除异常值、替换异常值以及进行统计分析时对异常值进行特别处理等。

2、使用指南

在异常值的算法中, IQR 前面的系数是重要的运营手段。在实际工程应用中, IQR 前面的系数1.5被认为是一个经验值,可根据业务实际情况在1.0~2.0之间调节,越大意味着异常值标准越宽松,越小则意味着异常值标准越严格。通常情况下认为异常值是数据产生波动的重要原因。

在统计学中,通常用分位数来确定正常值区间,并筛选出异常值,筛选算法如下:
■若数据大于Q3+1.5(|Q3-Q1|),则数据为异常值。
■若数据小于Q1-1.5(|Q3-Q1|),则数据为异常值。
■若数据在Q1-1.5(|Q3-Q1|)和Q3+1.5(|Q3-Q1|)之间,则为正常值。其中,|Q3-Q1|也叫分位距,或分位差,用 IQR 来表示。
异常值的业务含义同样十分重要:
■用数学方法判断一组业务数据中异常的值,可大大加快分析速度和效率。
■异常值,通常需要单独排查和分析。在很多互联网公司都会设置一个职位专门跟进分析异常值,它们叫 Bad Case 。
■异常值不能说好,也不能说不好,要根据实际业务情况来看。"双11"这天的销售数据,对比11月其他日期的销售,显然是一个异常值。但对于这个异常值,当然希望越大越好,也就是越异常越好。

异常值的运营工具一箱线图
■可以直接看到中位数和平均值所在的的位置,便于快速评估中位数和平
均值的大小。
■可以通过箱子的高度定性判断方差大小小:箱子越高,方差越大,反之
越小。
■可以看到正常值的范围,上下限之之间即是正常值范用。

3、应用场景

渠道获客分析:每日新增用户数是否异常

你可能感兴趣的:(数据运营,数据分析)