2 数据的概括性度量

阅读材料为 第四章。

开头先来一个总体内容的概括好了:

集中趋势:众数、中位数、平均数

离散程度:异众比率、四分位差、极差、平均差、方差或标准差、离散系数

分布的形状:偏态系数、峰态系数

 

集中趋势:

分类数据:

众数:一般情况下,只有在数据量较大的时候众数才有意义。

众数可能不存在,也可能有多个。

顺序数据:

分位数、中位数

中位数的位置:(n+1)/2

数值型数据:

平均数:简单平均数、加权平均数、几何平均数

简单平均数很简单就不说了。

根据分组数据计算的平均数称为加权平均数;工作中我们算1-9月的店均销售就是采用加权平均的,因为每个月的店铺数会有变化。用1-9月的销售额之和除以1-9月的店铺数之和。

几何平均数的主要应用是计算现象的平均增长率(当数据出现零值或负值时不宜使用)。

当所平均的各比率数值相差不大时,算术和几何平均的结果差别不大。

 

众数、中位数、平均数之间的关系:

当数据对称分布时,三者相等;

当数据左偏分布时,平均数被拉向左边,中位数也略偏左边,因此,平均数<中位数<众数

当数据右偏分布时,平均数被拉向右边,中位数也略偏右边,因此,众数<中位数<平均数

三者的应用场合:

众数:数据量大时适用;分类数据。

中位数:不受极端值影响,因此偏态分布时适用;顺序数据。

平均数:受极端值影响大,因此数据对称分布时适用;数值型数据。

 

集中趋势和离散程度之间的联系:

数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差。

离散程度的测度值有:

异众比率(分类数据)

四分位差(顺序数据;两个四分位数的差,反映了中间50%数据的离散情况)

方差&标准差(常用,有量纲)&极差(简单粗暴,极易受极端值影响)&平均差(实际意义清楚,准确反映全体数据的离散情况)

离散系数:用于对比不同水平的不同样本的离散情况(标准差除以平均值)。

 

平均值&标准差铸造的终极武器:标准分数

计算方法:(数据-平均值)/标准差

用途:

①可以测度每个数据在该组数据中的相对位置

②可以用它来判断一组数据汇总是否有离群数据

③我们在对多个具有不同量纲的变量进行处理时,常常用标准分数对各变量进行标准化处理

---->经验法则:适用于对称分布的数据。三个数分别是 68%,95%,99%

---->切比雪夫不等式:适用于任何分布的数据。三个数分别是 75%,89%,94%

 

离散系数(相对离散程度)

计算方法:标准差除以平均值。(当平均数接近0时,离散系数的值趋于增大,此时必须慎重解释)

主要用来比较不同样本数据的离散程度。

 

数据分布形状的度量:偏态与峰态

偏态:若数据对称分布,则偏态系数为0;若大于1或小于-1,为高度偏态分布;若在0.5到1 或 -1到-0.5之间,为中等偏态分布。

峰态:若数据正态分布,则峰态系数为0;若大于0为尖峰分布,数据分布集中;若小于0为扁平分布,数据分布分散。

 

最后总结一下与以上概念相关的excel函数:

1.众数:mode(),若不含重复数据,会返回错误值

2.中位数:median()

3.四分位数:quartile.inc(array,quart)

quart=0,返回最小值;quart=1,返回第一个四分位数;quart=2返回中位数;quart=3,返回第二个四分位数;quart=4返回最大值

4.算术平均数:average()

5.几何平均数:geomean()

6.平均差:avedev()

7.标准差:stdev()

8.偏态系数:skew()

9.峰态系数:kurt()

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(2 数据的概括性度量)