小瓜讲数据分析——使用箱型图判定异常值

箱型图的预备知识

统计学中常用五数概括法来总结数据样本,分别是:

  1. 最小值
  2. 第一四分位数(下四分位)
  3. 第二四分位数(中位数)
  4. 第三四分位数(上四分位)
  5. 最大值

箱型图也同样用到这些概念(详见《商务与经济统计》)。典型的箱型图(横版)如下

小瓜讲数据分析——使用箱型图判定异常值_第1张图片
  图1 箱型图示意(引用《商务与经济统计》p108 figure 3.4)

在绘制箱型图时将第一四分位Q1作为箱底,第三四分位Q3作为箱盖,可以绘制中间的箱(中位数一般作为标记画上)。
四分位间距IQR = Q3-Q1,上界限 = Q3 + 1.5IQR,下界限 = Q1-1.5IQR。如图所示。

但是在一般使用时,见到的箱型图是这样的:

     图2 箱型图示意(引用箱形图百度百科)

显然上边缘到上四分位与下边缘到下四分位的间距是不一样的。
实际绘制箱型图按以下步骤:

  1. 计算下四分位数、中位数、上四分位数
  2. 计算上边界、下边界
  3. 判断异常值
  4. 在集合中除去异常值去最大值、最小值,取作上边缘、下边缘
  5. 判断下四分位数与下边缘的大小,如果下四分位数小于下边缘,取下四分位为箱底,否则以下边缘为箱底
  6. 判断上四分位数与上边缘的大小,如果上四分位数大于上边缘,取上四分位为箱盖,否则以上边缘为箱盖

例子

data = [185, 195, 200, 201, 210, 223, 750, 1000],绘制样本的箱型图。
计算(8+1)/4 = 2.25,(8+1)×2/4 =4.5,(8+1)×3/4 = 6.75
所以Q1 = 195×0.25+200×0.25 = 198.75
  Q2 = 201×0.5+210×0.5 = 205.5
  Q3 = 223×0.75+750×0.25 = 354.75
上边界 = Q3 + 1.5×IQR = 354.75+1.5×(354.75-205.5)=578.625
下边界 = Q1 - 1.5×IQR = 1.5-1.5×(354.75-205.5)=-25.125
判定750,1000在[-25.125,578.625]以外,所以为异常值
上边缘 = 223 < Q3
下边缘 = 185 < Q1
所以上边缘取Q3,下边缘取185
绘制箱型图如下
小瓜讲数据分析——使用箱型图判定异常值_第2张图片

文章导引列表:
机器学习

  1. 小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解
  2. 小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
  3. 小瓜讲机器学习——分类算法(三)朴素贝叶斯法(naive Bayes)
  4. 待续

数据分析

  1. 小呆学数据分析——使用pandas中的merge函数进行数据集合并
  2. 小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
  3. 小呆学数据分析——pandas中的层次化索引
  4. 小呆学数据分析——使用pandas的pivot进行数据重塑
  5. 小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
  6. 小呆学数据分析——缺失值处理(一)
  7. 小呆学数据分析——异常值判定与处理(一)
  8. 小瓜讲数据分析——数据清洗

数据可视化

  1. 小瓜讲数据分析——数据可视化工程(matplotlib库使用基础篇)
  2. 小瓜讲matplotlib高级篇——坐标轴设置(坐标轴居中、坐标轴箭头、刻度设置、标识设置)

你可能感兴趣的:(小瓜讲数据分析——使用箱型图判定异常值)