数据分析及应用:如何分析基于绝对中位差的异常值检测问题?

目录

0 场景描述

1 数据准备 

2 问题分析

 abs(rn - (cnt+1)/2) < 1

3 小结


0 场景描述

数据集中可能存在异常的值。值存在异常有多种原因:

  • (1)可能是数据收集方式有问题,比如记录值的仪表存在误差;
  • (2)可能是数据输入错误导致的;
  • (3)还可能是因为数据生成时环境出现异常,这意味着数据点是正确的,但应谨慎根据数据得出任何结论。

鉴于此,我们想检测出异常数据。一种检测异常数据的常用方法是,计算数据的标准偏差,并将超过3 倍标准偏差(或其他类似距离)的数据点视为异常数据。

在统计学中,我们把这种检测异常值的方式称为 中位数绝对偏差(Median Absolute Deviation,MAD) 的方法,可以用来识别异常值并将其排除在外。MAD是一种基于中位数的离散度量,它可以帮助识别数据集中的异常值。

公式如下: 

你可能感兴趣的:(#,SQL进阶实战技巧,数字化建设通关指南,数据分析,数据挖掘,sql,数据库)