数据的概括性度量

一、数据的集中趋势的度量

  • 众数(mode)
  • 中位数(median)
  • 四分位数(quartile):一组数组排序后处于25%和75%位置的数
  • 平均数(mean):适用于数值型数据
    应用场合:
    众数不受极端值影响,但缺点是具有不唯一性,适用于数据量较大的分类数据;
    中位数不受极端值影响,当一组数据分布偏斜较大时,适用于使用中位数,中位数适用于顺序性数据
    平均值可以利用所有样本数据的信息,但是易受极端值影响;当数据分布偏斜较大时,不适于用平均数

二、数据的离散程度的度量

  • 异众比率(variation ratio)Vr
    非众数的频数占总频数的比率。该值越小,反应众数的代表性越好。适用于分类数据。
  • 四分位差(quartile variation)Qv
    也称内距或四分间距,上分位数与下分位数之差。反映了中间50%数据的离散程度,一定程度上也反映了中位数对数据的代表程度。当数据中存在极端异常值时,方差和标准差较大,而采用四分位差可以更好的表现数据的离散情况,一般情况下数据上限Q3+1.5(Q3-Q1),数据下限Q1-1.5(Q3-Q1),不在这个范围内的数据可认为异常数据。
  • 极差(range)R
    最大值与最小值的差值
  • 平均差(mean deviation)或平均绝对离差(mean absolute deviation)
    各数与平均数离差绝对值的平均数,用Md表示
  • 方差(variation)
  • 标准差(standard deviation)
  • 相对位置的度量
    1)标准分数(standard score)
    变量值与平均数差值与标准差之比。


2)经验法则
当一组数据对称分布时,经验法则表明:
约有68%的数据在平均数+-1个标准差范围之内;
约有95%的数据在平均数+-2个标准差范围内;
约有99%的数据在平均数+-3个标准差范围内;
3)切比雪夫不等式
经验法则只适用于数据对称分布的情况。对于任意分布形态的数据,采用切比雪夫不等式,至少有(1-1/k2)的数据分布在平均数+-k个标准差范围内。

  • 相对离散程度:离散系数或变异系数(coefficient of variation)
    方差和标准差受原变量值自身高低水平和计量单位的影响,体现的是变量的绝对离散程度。
    为了消除这种影响,采用标准差与平均值的比值,即离散系数来衡量变量的相对离散程度。



    离散系数主要用来比较不同样本数据的离散程度。

三、数据的分布特征

  • 偏态系数(coefficient of skewness),记作SK。

如果一组数据是对此的,SK=0。如果偏态系数大于1或小于-1,为高度偏态分布;如果在0.5-1或-1~-0.5,为中等偏态分布。
SK>0,称为正偏或右偏;SK<0,称为负偏或左偏。

  • 峰态系数(coefficient of kurtosis),记作K
    峰态系数是与标准正态分布相比较而言的,如果一组数据服从标准正态分布,K=0,如果明显大于0,表明分布更尖,数据分布更集中;如果明显小于0,表明分布更平,数据分布更分散。


你可能感兴趣的:(数据的概括性度量)