描述性统计理论学习

0x00 前言

最近由好友推荐加入了一个名为数据异次元的微信群，群主是鹅厂做数据仓库等数据方面的大佬木东居士，在看了大部分他的公众号（、微信公众号同名：木东居士）之后深有感触，越来越觉得自己在数据这块懂的是真的浅薄，人与人之间的差距还是很大的，就像数据仓库在平时工作中以为就那回事，其实如果公司规模小，是并不具备做数仓的土壤的，并不是用了hive，就是做了数仓，其实只是简单的数据处理过程，但是庆幸的是终于能认识一群业内的大佬，并能从中学习到很多。

近日居士以及几位业内大佬又共谋发起了一个数据挖掘兴趣小组，并且不收费，知识组织大家一起系统性的学习数据挖掘的知识和技能，在此感谢下木东居士规划的学习计划！

话不多说，这篇文章就是学习计划中的重要一环，持续产出，每周将学习的知识点整理出来。为期半年的学习计划分为两部分，统计学和机器学习，以下即为统计学中描述性统计的理论学习。

应用统计学主要分为两大部分，描述性统计和推断性统计，本文讲述的便是其中之一描述性统计。

那么何为描述性统计呢？描述性统计分析要对调查总体所有变量的有关数据进行统计性描述。

简单来说，就是用来描述调查对象的一种统计，它主要分为：集中趋势描述、离散程度描述、分布形态描述三种维度。

0x01 知识点整理

1.集中趋势描述

是指找到数据集合的代表值或中心值，这个代表值或中心值用来反映事务目前所处的位置和发展水平，通过多次测量和比较，还能够找到发展和变化趋势。

1.1. 简单算术平均数

简单算术平均数是最典型、最常用、最具代表性的集中趋势描述指标。数据集合中所有数据值相加的和除以数据值个数即得到了简单算术平均数。

1.2. 加权算术平均数

当数据集合中的数据值并不是同等重要时，用简单算术平均数就不能很好的描述数据的集中趋势了，这时候就需要用到加权算术平均数。简单算术平均数就是所有数据值的权重相同时候的特殊情况。

公式中的f1、f2、fn即为权。

1.3. 几何平均数

当数据集合中的数据关系不是加减关系，而是乘除关系时。这个时候用几何平均数来描述这种数据集合的集中趋势比较好。

1.3. 众数

数据集合中出现次数最多的数值称为众数，如果有两个或多个数值的出现次数相同，那么这两个或多个并称为众数，如果所有数值的出现次数相同，那么该数据集合就没有众数。

1.4. 中位数

将数据集合中所有数据按照大小顺序依次排序，如果数据集合中数值个数是奇数，那么排在中间的数就是中位数，如果是偶数，那么取两个数值的算术平均数即为中位数。

特点：不受数据集合中个别极端值的影响，较为稳定，常被用来度量具有偏斜性质的数据集合的集中趋势。

1.5. 四分位数

对于一组数据集合，将所有数据值按大小排序后，排在四分之一位置的数据即为第一四分位数Q1，排在四分之二位置的数据即为第二四分位数Q2,就是中位数，排在四分之三位置的数据即为第三四分位数Q3，这三个四分位数将数据分成了四等份。

2. 离散程度描述

集中趋势描述在表示数据集合特征时会有不同的缺陷，例如算术平均数会受到极端值的影响，不能完全展现数据集合的特征，离散程度指标可以在一定程度上弥补集中趋势指标的缺陷。

在同类离散指标的比较中，离散指标的数值越小，说明数据集合波动（变异）程度越小，反之则相反。

2.1. 极差（全距）

指数据集中最大值与最小值的差值，表示整个数据集集合能够覆盖的数值距离。

特点是表示数据集合的波动大小，缺陷是对于两个极值以外的数值分布情况，极差不能给与反馈，因此来说极差不能全面且精确的描述集合的离散程度。

2.2. 平均偏差

平均差也叫平均绝对离差，指数据集合中每个数据值与算术平均值的离差绝对值的平均数。对于任意一个数据集合，表示其离散程度的一种容易想到的度量方式就是与算术平均值的偏离，但是为了防止偏差之和等于零，因此采取了绝对值。

2.3. 方差与标准差

标准差是方差的正值平方根，方差是指计算数据集合中所有数据值与数据总体均值之差的平方的均值，方差公式：

方差利用平方克服了离差和等于0的问题，与平均偏差有异曲同工之妙，但是方差同样有局限性，因为其夸大了数据集合的离散程度，因此标准差为了减小夸大，即采用取方差的算术平方根的方式来描述数据离散程度。

2.4. 四分位差

四分位差，即第一四分位数Q1与第三四分位数Q3之差，反映数据集排序后中间50%数据的离散程度，数值越小，说明中间的数据集离散越小，越集中，反之则相反。特点是不受极值的影响。

2.5. 异众比率

异众比例即非众数数据的次数占总体全部次数的比例，异众比例越大表示众数的代表性越差，异众比例越小代表众数的代表性越好，数据也越集中。

2.6. 离散系数（变异系数）

离散系数是为了解决两组数据标准差和方差相同时，无法区分哪个数据集的离散程度更高，这时候离散系数就可以解决。其本质上就是标准差相对于算术平均值的大小。

3. 分布形态描述

3.1. 偏态系数

偏态系数即为平均值与中位数之差对标准差的比率，用来很亮偏斜的程度，一般用SK(Skewness)表示偏斜系数。

偏态系数小于0，因为平均数在众数之左，是一种左偏的分布，又称为负偏。

偏态系数大于0，因为均值在众数之右，是一种右偏的分布，又称为正偏。

偏态系数等于0，对称分布。

3.2. 峰态系数

峰态系数即用来描述数据扁平度的测量，一般用K（Kurtosis）表示。

在正态分布情况下，峰态系数是3。

大于3的峰度系数说明观察量更集中，有比正态分布更短的尾部。

小于3的峰度系数说明观测量不那么集中，有比正态分布更长的尾部，类似于矩形的均匀分布。

0xFF 总结

本文主要是针对《人人都会数据分析》内容的学习总结，写的不好，随便看看，详细实例推荐去看原书。

over~