从0开始学数据分析—

数据描述的三个维度：

一、集中趋势描述

目的：寻找反映事物特征的数据集合的代表值或中心值，可以反映事物目前所处的位置和发展水平。通过对事物集中趋势指标的多次测量和比较，还能够说明事物的发展和变化趋势。

指标如下：

均值（最常用的数据集中趋势指标）

算数平均数

将数据集合的所有数据值相加的和除以数据值个数

加权平均数

每个数据拥有一定的权重，即（数据*权重）的总和除以数据的个数。

几何平均数

算数平均数和加权平均数都是加减的关系，要算比例的乘除关系，需要几个平均数。

众数

数据集合中出现次数最多的数值则是众数。如果数据集合中所有数值出现的次数相同，则该集合中没有众数

中位数

数据集合按照从高到低，或者从低到高排列，如果是奇数，则中间的数值就是该数据集合的中位数；如果为偶数，则取中间两个数值的算数平均数作为中位数；

好处：中位数的优势在于不受数据集合中个别极端值的影响，常用来度量具有偏斜性质的数据集合的集中趋势

二、离散程度描述

离散指标的数值越小，说明数据集合的波动（变异）程度越小，反之亦然。

离散程度只是一个相对概念，需要通过与参考值的对比才能表示出离散程度。

极差（全距）

最大值-最小值，表示整个数据集合能够覆盖的距离

极差只是一个比较粗糙的离散程度指标，要全面且精确地说明数据集合的离散程度，不宜使用极差进行描述。

平均偏差

平均差是表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的离差绝对值的算术平均数

方差

统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。

方差和平均数有异曲同工之妙，用平方来消除平均数相减总和等于0的影响，但是正因为是平方，所以夸大了离散程度。

标准差

由于方差夸大了数据的离散程度，因此还可以取标准差，即方差的开方

四分位数

四分位极差等于第一四分位与第三四分位数的差值（Q3-Q1），这个差值区间包含了整个数据集合50%的数据值。

变异系数（离散系数）

当度量单位与平均数相同时，可用标准差来比较两个数据及的离散程度。当度量单位与平均数不同时，就需要用到离散系数，即标准差与均值的比值。

离散系数越小，平均数的代表性越好；离散系数越大，平均数的代表性越差

异众比率

异众比率是指总体中非众数个数占总个数的比例，异众比率越小，众数越具有代表性；反之越大，众数代表性就越差

三、分布的形态

峰态系数

峰态系数是用来衡量分布曲线顶端的扁平尖稍程度，有时候两组数据的平均值，标准差，偏态系数都相同，但是峰态系数不同。

峰度系数>0 ,分布曲线为尖峰态

峰度系数=0，分布曲线为常峰态

峰度系数<0，分布曲线为低峰态

偏态系数

均值为参考点

均值左侧数据较多，长尾拖在右侧，称为右偏分布；

均值右侧数据较多，长尾拖在左侧，称为左偏分布；

当偏度系数等于0时，称为对称分布

当偏度系数小于0时，为左偏分布，长尾拖在左边

当偏度系数大于0时，为右偏分布，长尾拖在右边

python代码如下：

import numpy as np

import stats as sts

scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,

32, 34, 43, 41, 21, 23, 26, 26, 34, 42,

43, 25, 24, 23, 24, 44, 23, 14, 52,32,

42, 44, 35, 28, 17, 21, 32, 42, 12, 34]

#集中趋势的度量

print('求和：',np.sum(scores))

print('个数：',len(scores))

print('平均值:',np.mean(scores))

print('中位数:',np.median(scores))

print('众数:',sts.mode(scores))

print('上四分位数',sts.quantile(scores,p=0.25))

print('下四分位数',sts.quantile(scores,p=0.75))

#离散趋势的度量

print('最大值:',np.max(scores))

print('最小值:',np.min(scores))

print('极差:',np.max(scores)-np.min(scores))

print('四分位差',sts.quantile(scores,p=0.75)-sts.quantile(scores,p=0.25))

print('标准差:',np.std(scores))

print('方差:',np.var(scores))

print('离散系数:',np.std(scores)/np.mean(scores))

#偏度与峰度的度量

print('偏度:',sts.skewness(scores))

print('峰度:',sts.kurtosis(scores))

从0开始学数据分析——第一周

你可能感兴趣的:(从0开始学数据分析——第一周)