关于盒须图的那些事——四分位数,插值法

关于盒须图的那些事——四分位数,插值法_第1张图片
盒须图
背景:项目的应用场景建设,使用到了tableau的盒须图,却对这个盒须图的几个参数不理解
涉及的概念:四分位数,插值法

一、四分位数

定义:在统计学中,将一组数据由小到大排序分为四份,其中的三个分割点就是四分位数
英文:Quartile(介绍英文的原因是四分位数的命名就是以英文的第一个字母开头的)
概念

  • 第一四分位数(Q1):一组数据由小到大排序,处于所有数据1/4位置的数字;
  • 第二四分位数(Q2):一组数据由小到大排序,处于所有数据1/2位置的数字;
  • 第三四分位数(Q3):一组数由小到大排序呢,处于所有数据3/4为主的数字;
  • 四分位距:第一四分位数与第三四分位数的距离

计算方式

n+1方式:Q1=(n+1)×0.25
n-1方式:Q1=1+(n-1)×0.25

这里演示的是n-1的方式

数据:1,2,3,4,5,6
Q1的位置:1+(6-1)×0.25=2.25
Q2的位置:1+(6-1)×0.5=3.25
Q3的位置:1+(6-1)×0.75=4

这里的位置数据有两个小数,所有需要用到插值法。
Q1的位置为2.25,也就是第二个数与第三个数之间,那么利用插值法计算

Q1=2*(1-0.25)+3*(1-0.75)=2.25

注意:这里的2.25与上面的2.25有本质的区别,加入这一组数为1,2,5,6,7,8
因为数组的个数没变,还是6个,所以四分位数的位置没有变,依旧是上面的三个数,但是数据却变了,还是使用插值法

Q1=2*(1-0.25)+5(1-0.75)=3.75

插值法的教科书版本很麻烦,这里的可以简单理解为较小的数乘以(1-位置中的小数)加上较大的数乘以(位置中的小数)

二、盒须图

盒须图见上图
六个参数

  • 上须:最大值
  • 下须:最小值
  • 上枢纽:Q3
  • 下枢纽:Q2
  • 中位数:Q1
  • 异常值:离散于整个数组,上面的盒须图中从左到右的第四个和第九个就有两个异常值

盒须图的意义:通过盒须图可以一眼看出一组数的离散程度,聚集区间(在整个数组中的四等分中那个区间数据比较集中)

你可能感兴趣的:(数据分析)