数据描述的三个维度:
一、集中趋势描述
目的:寻找反映事物特征的数据集合的代表值或中心值,可以反映事物目前所处的位置和发展水平。通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。
指标如下:
均值(最常用的数据集中趋势指标)
算数平均数
将数据集合的所有数据值相加的和除以数据值个数
加权平均数
每个数据拥有一定的权重,即(数据*权重)的总和除以数据的个数。
几何平均数
算数平均数和加权平均数都是加减的关系,要算比例的乘除关系,需要几个平均数。
众数
数据集合中出现次数最多的数值则是众数。如果数据集合中所有数值出现的次数相同,则该集合中没有众数
中位数
数据集合按照从高到低,或者从低到高排列,如果是奇数,则中间的数值就是该数据集合的中位数;如果为偶数,则取中间两个数值的算数平均数作为中位数;
好处:中位数的优势在于不受数据集合中个别极端值的影响,常用来度量具有偏斜性质的数据集合的集中趋势
二、离散程度描述
离散指标的数值越小,说明数据集合的波动(变异)程度越小,反之亦然。
离散程度只是一个相对概念,需要通过与参考值的对比才能表示出离散程度。
极差(全距)
最大值-最小值,表示整个数据集合能够覆盖的距离
极差只是一个比较粗糙的离散程度指标,要全面且精确地说明数据集合的离散程度,不宜使用极差进行描述。
平均偏差
平均差是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的离差绝对值的算术平均数
方差
统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。
方差和平均数有异曲同工之妙,用平方来消除平均数相减总和等于0的影响,但是正因为是平方,所以夸大了离散程度。
标准差
由于方差夸大了数据的离散程度,因此还可以取标准差,即方差的开方
四分位数
四分位极差等于第一四分位与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合50%的数据值。
变异系数(离散系数)
当度量单位与平均数相同时,可用标准差来比较两个数据及的离散程度。当度量单位与平均数不同时,就需要用到离散系数,即标准差与均值的比值。
离散系数越小,平均数的代表性越好;离散系数越大,平均数的代表性越差
异众比率
异众比率是指总体中非众数个数占总个数的比例,异众比率越小,众数越具有代表性;反之越大,众数代表性就越差
三、分布的形态
峰态系数
峰态系数是用来衡量分布曲线顶端的扁平尖稍程度,有时候两组数据的平均值,标准差,偏态系数都相同,但是峰态系数不同。
峰度系数>0 ,分布曲线为尖峰态
峰度系数=0,分布曲线为常峰态
峰度系数<0,分布曲线为低峰态
偏态系数
均值为参考点
均值左侧数据较多,长尾拖在右侧,称为右偏分布;
均值右侧数据较多,长尾拖在左侧,称为左偏分布;
当偏度系数等于0时,称为对称分布
当偏度系数小于0时,为左偏分布,长尾拖在左边
当偏度系数大于0时,为右偏分布,长尾拖在右边
python代码如下:
import numpy as np
import stats as sts
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,
32, 34, 43, 41, 21, 23, 26, 26, 34, 42,
43, 25, 24, 23, 24, 44, 23, 14, 52,32,
42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#集中趋势的度量
print('求和:',np.sum(scores))
print('个数:',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.25))
print('下四分位数',sts.quantile(scores,p=0.75))
#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print('极差:',np.max(scores)-np.min(scores))
print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))
print('标准差:',np.std(scores))
print('方差:',np.var(scores))
print('离散系数:',np.std(scores)/np.mean(scores))
#偏度与峰度的度量
print('偏度:',sts.skewness(scores))
print('峰度:',sts.kurtosis(scores))