2.差异性

1. 四分位数

1.1 简述

        四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制,剔除异常值。四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示:

    Q1:第一四分位数、“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。

    Q2:第二四分位数、又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。

    Q3:第三四分位数、又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

    IQR:  又称四分位距,IQR = Q3 - Q1

1.1 确定四分位数

    Q1的位置= (n+1) × 0.25

    Q2的位置= (n+1) × 0.5

    Q3的位置= (n+1) × 0.75

 (n 表示样本数量)

    example :

        n 为奇数

        样本数据:6,10,12,15, 17,19,22,25,29,44 ,66

        数据索引:1、 2、  3、  4、   5、  6、 7、  8、  9、  10、  11 (即可表示为第 1 个数据为 6,第 2 个数据为 10)

        Q1 的位置  :(11 + 1) × 0.25 = 3.0    即 Q1 = 12

        Q2 的位置  :(11 + 1) × 0.5  =  6.0    即 Q2 = 19

        Q3 的位置  :(11 + 1) × 0.75 = 9.0    即 Q3 = 29

          n 为偶数

        样本数据:   7,  15,  36,  39,  40,  41

        数据索引:1、 2、 3、 4、  5、 6

        Q1的位置:(6 + 1)  × 0.25 = 1.75 在第一与第二个数字之间, Q1 = 0.75*15+0.25*7 = 13,

        Q2的位置:  (6 + 1)  × 0.5 = 3.5 在第三与第四个数字之间,Q2 = (36+39)/2= 37.5,

        Q3的位置:(6 + 1)  × 0.75 = 5.25 在第五与第六个数字之间, Q3 = 0.25*41+0.75*40 = 40.25.

1.1 应用

          A.四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。    

        B. IQR (四分位差)

            IQR = Q3 - Q1  

            IQR 的不足:无法考虑所有的数据、完全不同的两个数据集也可以有相同的IQR,例如正太分布、均匀分布、双峰分布。

       C. 定义异常值

            统计学中判断异常值的方式:

            异常值被定义为不在 Q1 - 1.5(IQR)  ~  Q1 + 1.5(IQR) 范围内的数据。

             outlier < Q1 - 1.5(IQR)

                         > Q1 + 1.5(IQR) 

你可能感兴趣的:(2.差异性)