从0开始学数据分析——第一周

数据描述的三个维度:

一、集中趋势描述

目的:寻找反映事物特征的数据集合的代表值或中心值,可以反映事物目前所处的位置和发展水平。通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。

指标如下:

均值(最常用的数据集中趋势指标)

           算数平均数

           将数据集合的所有数据值相加的和除以数据值个数

           加权平均数 

           每个数据拥有一定的权重,即(数据*权重)的总和除以数据的个数。

           几何平均数

           算数平均数和加权平均数都是加减的关系,要算比例的乘除关系,需要几个平均数。

众数

数据集合中出现次数最多的数值则是众数。如果数据集合中所有数值出现的次数相同,则该集合中没有众数

中位数

数据集合按照从高到低,或者从低到高排列,如果是奇数,则中间的数值就是该数据集合的中位数;如果为偶数,则取中间两个数值的算数平均数作为中位数;

好处:中位数的优势在于不受数据集合中个别极端值的影响,常用来度量具有偏斜性质的数据集合的集中趋势

二、离散程度描述

离散指标的数值越小,说明数据集合的波动(变异)程度越小,反之亦然。

离散程度只是一个相对概念,需要通过与参考值的对比才能表示出离散程度。

极差(全距)

 最大值-最小值,表示整个数据集合能够覆盖的距离

极差只是一个比较粗糙的离散程度指标,要全面且精确地说明数据集合的离散程度,不宜使用极差进行描述。

平均偏差

平均差是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的离差绝对值的算术平均数

方差

统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

方差和平均数有异曲同工之妙,用平方来消除平均数相减总和等于0的影响,但是正因为是平方,所以夸大了离散程度。

标准差

由于方差夸大了数据的离散程度,因此还可以取标准差,即方差的开方


四分位数

四分位极差等于第一四分位与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合50%的数据值。

变异系数(离散系数)

当度量单位与平均数相同时,可用标准差来比较两个数据及的离散程度。当度量单位与平均数不同时,就需要用到离散系数,即标准差与均值的比值。

离散系数越小,平均数的代表性越好;离散系数越大,平均数的代表性越差

异众比率

异众比率是指总体中非众数个数占总个数的比例,异众比率越小,众数越具有代表性;反之越大,众数代表性就越差

三、分布的形态

峰态系数

峰态系数是用来衡量分布曲线顶端的扁平尖稍程度,有时候两组数据的平均值,标准差,偏态系数都相同,但是峰态系数不同。

峰度系数>0 ,分布曲线为尖峰态

峰度系数=0,分布曲线为常峰态

峰度系数<0,分布曲线为低峰态

偏态系数

均值为参考点

均值左侧数据较多,长尾拖在右侧,称为右偏分布;

均值右侧数据较多,长尾拖在左侧,称为左偏分布;

当偏度系数等于0时,称为对称分布

当偏度系数小于0时,为左偏分布,长尾拖在左边

当偏度系数大于0时,为右偏分布,长尾拖在右边

python代码如下:

import numpy as np

import stats as sts

scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,

          32, 34, 43, 41, 21, 23, 26, 26, 34, 42,

          43, 25, 24, 23, 24, 44, 23, 14, 52,32,

          42, 44, 35, 28, 17, 21, 32, 42, 12, 34]

#集中趋势的度量

print('求和:',np.sum(scores))

print('个数:',len(scores))

print('平均值:',np.mean(scores))

print('中位数:',np.median(scores))

print('众数:',sts.mode(scores))

print('上四分位数',sts.quantile(scores,p=0.25))

print('下四分位数',sts.quantile(scores,p=0.75))

#离散趋势的度量

print('最大值:',np.max(scores))

print('最小值:',np.min(scores))

print('极差:',np.max(scores)-np.min(scores))

print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))

print('标准差:',np.std(scores))

print('方差:',np.var(scores))

print('离散系数:',np.std(scores)/np.mean(scores))

#偏度与峰度的度量

print('偏度:',sts.skewness(scores))

print('峰度:',sts.kurtosis(scores))

你可能感兴趣的:(从0开始学数据分析——第一周)