【统计学】数据描述方法(均值、中位数、众数、标准差、离差、四分位数)

 

分布中心的测量:
    均值:大多数时候所说的平均数,它的定义如下:
        均值=  所有数值的总和 / 所有数值的个数总和

    中位数:分类数据组的中间值(如果数据个数为偶数,则是两个中间数值和的一半)
    众数:数据组中出现次数最多的值(或者一组值)

 

异常值:比几乎其他所有数字都要 大/小 很多的数值

 

加权平均值:对变量在数值中重要程度的解释。每个数值被赋予一个权重,它对应的加权平均值是:
    加权平均值= (数值×对应权重)的总和 / 权重的总和 = ∑(x * w) / ∑w

数值总和=∑x
n表示样本中数值的总数。
\bar{x} = 样本均值 = 数值总和/数值总数 = \sum \frac{x}{n}

 

对称性(偏态)(图)


当一个分布的左半部分与右半部分呈镜面效果时它就是对称分布
当一个分布的数值大多数分布在左侧时,它就是左偏分布
当一个分布的数值大多数分布在有侧时,它就右偏分布

离散程度:数据组相对于其中心是如何分散的

极差: 最大值与最小值的差值
    极差 = 最大值 - 最小值

四分位数:
下四分位数:(第一四分位数或Q)将数据组最下部的1/4与上部的3/4分开。它是数据组下半部分的中位数。(如果数据组中的数据为奇数个,那么除去数据组的中间值。)
中间四分位数:(第二四分位数或Q2)是总体的中位数
上四分位数:(第三四分位数或Q)将数据组最下部的3/4与上部的1/4分开。它是数据组上半部分的中位数。(如果数据组中的数据为奇数个,除去数据组的中间值。)

数据组的第n百分位数把数据分为下部的n%和上部的(100-n)%。如果一个数值正好在两个百分
位数之间,通常说这个数值处于低位的百分位数。可以通过以下公式大致估计任一组数据的百分位数
    百分位数 = 小于该数值的数据个数 /  数据组中数据的总个数 * 100%

 

计算标准差
第一步,计算数据组的均值。通过对每个数值减去均值得到离差。对于每个数值:
    离差=数值-均值
第二步,求出所有离差的平方值。
第三步,将所有离差的平方值相加。
第四步,用离差的平方和除以数值总数减1
第五步,标准差是上述商的开方。综上所述,标准差的计算,公式如下:
    标准差= 离差平方和 数值总数-1 开根号


极差经验法法则:
    极差经验法则中,标准差与极差的关系为:
        标准差 ≈ 极差/4
    如果知道分布的极差(极差=最大值-最小值)我们就可以通过这个法则来估计标准差。另一方面,如果知道标准差,我们也可以通过这个法则来估计最大值与最小值,公式如下:
        最小值≈均值-(2×标准差)
        最大值≈均值+(2×标准差)
    当最大值与最小值为异常值时,极差经验法则不再适用。

 

离差 = 数值 - 均值 =  x-\bar{x}
离差平方和 =  \sum (x-\bar{x})^2
标准差 = s =  \sqrt{\frac{\sum (x-\bar{x})^2}{n-1}}

你可能感兴趣的:(Mathematics)