正态分布的应用——基于描述性统计与分布的推论

内容导入：

大家好，这里是每天分析一点点。本期介绍描述性统计指标与分布的基本关系，包括分布的基本类型，集中趋势与分布的关系，离散趋势与分布的关系，再结合国民收入案例探讨分布与描述性统计分析在实际生活的应用。文章内容适合数据分析小白，内容深入浅出，案例贴合实际。下期给大家介绍偏度系数，欢迎大家关注。

概念介绍：

分布的类型：

上期主要给大家介绍了正态分布，其实除了正态分布，还有很多的分布类型，今天就给大家科普一下。标准的二分布、均匀分布这样的古典概型产生的分布，在这里就不一一给大家介绍了。本次介绍的分布，也是统计中较为常用的类型。

第一、T分布。

如果已知等待分析的总体服从正态分布，从总体中抽取容量为n的所有可能样本，对每个样本都计算出它们相应的T统计量，则所有T统计量的值将组成一个连续型概率分布，这个分布就是T分布，T分布的概率密度函数为：

t代表T统计量的值；v表示自由度，等于样本容量n减去1； c为常数，使T分布函数曲线下的面积等于1。

T分布有什么功能呢？大家是否听说过系数T检验，样本T检验。T分布可以用来判断两个连续变量的显著性，经常用于判断线性回归中的系数是否显著，如果不显著，需要剔除该变量重新拟合。一般情况是T检验的双侧P值小于5%，视为显著，大于5%视为不显著。比如身高与年龄是否有显著性关系，GDP与投资是否有显著性关系。

第二、卡方（χ2 ）分布。

若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布。概率密度函数：

X2代表卡方统计量；e是自然底数，等于2.72； v代表自由度，等于样本容量n-1； c代表调节常数，使得卡方分布曲线下方的总面积等于1。

卡方分布，是用来检测方差的，通常检验一个变量两个类型的方差是否显著，通常用于逻辑回归中。举个例子，一个班共60个人，男的35人，女的25人，分析男女身高水平是否有显著差异，将60个身高数据用男女分开，然后应用卡方分布进行检验。一般情况是卡方检验的双侧P值小于5%，视为显著，大于5%视为不显著。二分类逻辑回归的显著性检验，应用的就是卡方检验。

第二、F分布。

两个正态分布总体之间的方差关系。

F统计量其实可以被认为是由两个卡方（χ2）统计量相除得到的，一般情况是默认将卡方值较大的总体作为分母，卡方值较小的总体作为分子。概率密度函数为：

v1表示F统计量分子的自由度； v2表示F统计量分母的自由度；c代表修正常数，它使得F分布曲线下方的总面积等于1。

F分布又是用来干什么的呢?做数据分析的你一定用过，但是你未必知道，F检验可以用来检验方差和函数，是的，检验函数，线性回归与逻辑回归的模型显著性，就可以用F分布进行检验。一般情况是F检验的双侧P值小于5%，视为显著，大于5%视为不显著。

分布与描述性统计分析的关系：

上期问了大家几个问题，如何描述频度分布图的特点呢？

1、左边数据多还是右边数据多？

2、左边陡峭还是右边陡峭？

3、是否存在极大极小的离群值？

4、是‘凸’的还是‘凹’的？

5、总体的形状像什么？

分布的数据特点已经相关的作用刚才已经给大家介绍了。分布的形状、陡峭程度、离群值特点与描述性通过相关指标有关。接下来，我们来进行具体的了解。

集中趋势与分布的关系：

经过前几期的了解，我们知道平均值、中位数、众数是集中趋势的指标。但是，并不是所有数据中，平均值与中位数都代表这数据的集中趋势。例如，想正态分布这样的倒U型分布数据，平均值、中位数、众数就可以代表数据的集中趋势。形如U型的数据分布，只有众数代表集中趋势，比如49个1，49个99，1个50这样的数据，平均值中位数是50，众数是1和99，这个时候只有众数代表数据集中趋势。

另外，平均值、中位数、众数的位置，与分布图形的左右形状有关，当均值小于中位数小于众数时，分布形状是右边隆起，左边有长长的尾巴；当均值大于中位数大于众数时，分布形状是左边隆起，右边有长长的尾巴。

离散趋势与分布的关系：

离散趋势的指标是极差、方差与标准差，这次我们主要讨论标准差。刚才给大家讲了数据向左，或者向右移动的指标判断方式；现在给大家介绍分布是‘凸’的还是‘凹’的指标。在所有分布中，都是方差越大，数据分布越‘凸’，方差越小，数据分布越‘凹’。如何判定方差是大是小呢？参照相同均值的正态分布即可。

而且，‘凸’与‘凹’还有更进一步的应用。‘凸’代表众数比较集中，并且两端急速下降，展现出来后发现两侧的值与集中的值相差很大，也就意味着，存在着离群值，具体离群值在大的一边还是小的一边，结合数据分布的偏向就可以看出来。‘凹’代表众数不是很集中，两边下降平缓，数值差距不大，意味着数据没有明显离群值。

大家看明白了吗？没关系，我们贴心的做了小视频，帮助各位消化理解。大家感兴趣的可以关注我们的公众号进行观看。

综合应用场景：

接下来我们来看个有趣的案例吧。

#国家收入水平案例

#（1）一个白领，工资水平高于周围的人，但是小于国家统计行业工资平均水平，为什么？

#（2）x为收入，y为对应的人数

x=['1000','2000','3000','4000','5000','6000','7000','8000','9000','10000',

'20000','30000','40000','50000','1000000','2000000']

y=[1000,3000,7000,10000,14000,16000,14000,8000,1000,500,100,

100,100,100,50,50]

要求：计算数据众数、中位数与平均值，解释上述现象，并评价国家整体收入状况。

根据数据，我们画出图形，计算出指标，看看到底是怎么回事？

图形看着比较“凸”，右侧下降陡峭，平均值大于中位数和众数，存在右侧极大离群值。

结论一：我们看到的是众数，所以收入都比他们高，当将极大值进行平均时，拉高了整体的收入水平。

结论二：平均值大于中位数与众数，存在极大值，国家收入差距大；数据集中在众数与中位数周围，大多数人的收入在同一水平；整体收入水平较低，大多数人收入水平在平均值以下。

本期分享到这里，我们会在每周持续更新，咱们下期再见，期待您的光临。

大家好，本次我们提供了案例代码，请进入公众号领取。有什么建议，比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等，请在下方留言。

正态分布的应用——基于描述性统计与分布的推论

你可能感兴趣的:(正态分布的应用——基于描述性统计与分布的推论)