四分位数的应用——基于收入实例的箱体图与离群值规则

内容导入:

大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍的是四分位数的原理与应用,四分位数的计算方式,并基于四分位数,画出箱体图,简要介绍如何通过箱体图来检测数据离群值。结合学习成绩与收入的案例分析,内容深入浅出,案例贴合实际,文章内容适合数据分析小白。下期给大家介绍集中趋势的应用。欢迎大家关注。

概念介绍:

四分位数是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(IQR)。

如下图所示为一个示意箱线图,从这个图上我们可以读出以下的信息:


这组数据显示出:

最小值(min)=0.5。

下四分位数(Q1)=7

中位数(Med)=8.5 (一段数据从小到大排序后,处于中间位置的数)

上四分位数(Q3)=9

最大值(max)=10

平均值=8

四分位间距(interquartile range)=Q3-Q1=2

计算方式:

第一步:确定四分位数的位置。

四分位数是将数列等分成四个部分的数,一个数列有三个四分位数,设下四分位数、中位数和上四分位数分别为Q1、Q2、Q3,则:Q1、Q2、Q3的位置可由下述公式确定:


式中n表示资料的项数

第二步:根据第一步所确定的四分位数的位置,确定其相应的四分位数。

例如:某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤,则三个四分位数的位置分别为: (计算四分位数需要先对数据排序)

即变量数列中的第三个、第六个、第九个工人的某种产品产量分别为下四分位数、中位数和上四分位数。即:

Q1 = 13.8公斤、Q2 = 14.6公斤、Q3 = 15.2公斤

如果没有看懂,可以关注我们的微信公众号观看视频,视频里引用大家熟悉的工资数据,来告诉大家四分位数如何计算。

具体应用:

应用一:告诉各位家长们从名次角度判定成绩好坏

现在,学校的成绩都应该已经出来了,通常,人们判定成绩的好还使用的是成绩的绝对数,也就是大家所说的成绩高低。然后按照惯例,比如60以下不合格,60-70分合格,70-80中,80-90良,90以上为优秀。但是这种方式有缺点,如果试题很难,那么优秀的人会很少,相反,如果试题简单,大多数人考的很好,优秀就没有参考价值。

今天介绍一种以相对值划分成绩的方式,首先对成绩进行排序,将其用四分位数进行划分,那我们得到的数据就是前25%,后百分之25%等的分类,当然这个分类可以通过八分位数更加细化。这种方式,避免了试题难易程度对评价的影响,也切合目前招考的风格,因为高考各校是以报考名次划线的,因此成绩的相对数要高于成绩的绝对数。

不知大家懂了没有,我们在微信公众号上传了精美小视频,帮助大家进行理解。大家感兴趣的可以关注我们微信公众号观看视频。

应用二:使用四分位数画箱体图,并判定离群值

箱体图有区分正常值与离群值的作用,与大家经常听说的3sigma原则作用相似,区别在于,3sigma原则的应用,数据必须符合正态分布,但是箱体图离群值却适用于所有分布类型的数据离群值测算。

箱体图的组成由下图所示,上边缘,是上四分位数加上1.5倍的箱体;下边缘是下四分位数减去1.5倍的箱体;上箱体为上四分位数;下箱体为下四分位数;箱体长度为上四分位数减去下四分位数。数据在上边缘以上或者下边缘以下,就称为离群值。


文字不够直观,我们在微信公众号上传了视频,详细介绍如何画箱体图进行离群值的检测。为方便大家进行代码学习,我们同时为大家准备了离群值相关案例的python代码,作为小礼物送给大家。大家感兴趣的可以关注我们微信公众号观看视频、获取资料。

想获取更多内容,请关注海数据公众号。

本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

你可能感兴趣的:(四分位数的应用——基于收入实例的箱体图与离群值规则)