数据分布

本周学习目标

1 离散概率分布

1.1 伯努利分布

又叫做0-1分布，指一次随机试验，结果只有两种。也就是一个随机变量的取值只有0和1。
记为: 0-1分布或B(1,p)，其中 p 表示一次伯努利实验中结果为正或为1的概率。
概率计算：
P(X=0)=p0 P(X=1)=p1
期望计算：
E(X)=0P0+1P1=P1

1.2 二项式分布

表示n次伯努利实验的结果。
记为：X~B(n,p)，其中n表示实验次数，p表示每次伯努利实验的结果为1的概率，X表示n次实验中成功的次数。

概率计算：

期望计算：
E(X)=n*p

1.3 多项分布

多项分布是二项分布的推广，二项分布的试验结果只有两个，而多项分布的试验结果则多于两个。各次试验相互独立，每次试验结果都不受其他各次试验结果的影响。假设某个多项分布试验可能发生的结果数量为k，依据历史数据，每种结果发生的统计概率分别为p1， p2，……， pk。现在进行n次多项分布试验，假设观测（可以结合下面的例子）到结果a1的次数为x1，结果a2的次数为x2， ……，结果ak的次数为xk，那么多项分布的联合概率质量函数为：

例子：截止到2015—2016赛季，曼彻斯特联队在历史上和曼彻斯特城队交手171次，打进250球丢234球，拿到了71胜51平49负的战绩。如果在
2016—2017赛季，曼彻斯特联队与曼彻斯特城队将进行6场比赛，求曼
联2胜1平3负的概率是多少？

期望计算：

1.4 超几何分布

在二项分布试验和多项分布试验中，每次试验结果的发生概率是不变的，而超几何分布试验结果的概率会随着每一次试验的发生而改变。超几何分布试验则是在有限总体中进行无放回抽样（总体数量不断减少），所以每次试验开始前，每种试验结果发生的概率将发生变化。
超几何分布是一种重要的离散型概率分布，它的概率质量函数可以这样定义：假设有限数据总体包含N个数值（个案），其中符合要求的个案数量为m个，如果从该有限数据总体中抽取n个个案，其中有k个是符合要求个案的概率计算公式为：

1.5 泊松分布

泊松概率分布考虑的是在连续时间或空间单位上发生随机事件次数的概率。通俗的解释为：基于过去某个随机事件在某段时间或某个空间内发生的平均次数，预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。泊松分布经常被用于销量较低的商品库存控制，特别是价格昂贵、需求量不大的商品。

泊松分布的概率质量函数由二项分布推导而来，在泊松分布中，随机事件“成功”发生的概率为p=λ/n； “失败”的概率为q=1-λ/n，因为λ/n→∞，所以q=1-λ/n→1。将以上已知条件代入二项分布的均值和方差公式，得到泊松分布的均值和方差：

2 连续变量概率分布

2.1 指数分布

指数分布与泊松分布正好互补。泊松分布能够根据过去单位时间内随机事件的平均发生次数，推断未来相同的单位时间内随机事件发生不同次数的概率。而指数分布的作用是根据随机事件发生一次的平均等待时间来推断某个时间段内，随机事件发生的概率。

指数概率分布是连续型概率分布，所以概率函数应该称为概率密度函数：

· x表示给定的时间长度；
· μ表示随机事件发生一次的平均等待时间；

· λ是μ的倒数，可以解释为单位时间内随机事件发生的次数。
例子：某著名手机厂商生产的某型号手机平均10年才出现一次大的故障。为了制造销售热点，公司想将保修期提高到15年，但又不想增加过多的成本投入，所以需要考虑以下问题： ① 该型号手机使用15年后还没有出现大故障的比例； ② 如果厂家想提供大故障免费维修的质量担保，基于成本考虑，保修数量不能超过全部产量的 20%，那么提供多长的保修年限最适宜。
该型号手机使用15年后还没有出现大故障的比例。已知该型号的手机平均10年发生一次大的故障，所以，单位时间（1年）内，发生故障的次数为λ=1/10=0.1，代入指数分布的概率计算公式：

从计算结果可知，该型号手机使用15年后没有发生大故障的概率是22.3%。换一种说法，就是只有22.3%的该型号手机在使用15年后没有发生大故障，而77.7%的手机都将在15年内进行维修，这个成本是极高的，远远超过20%的承受能力。厂家要求免费保修的比例不超过全部产量的20%，也就是要求在保修年限内发生大故障的手机比例不超过20%，可以列出不同保修年限对应的发生大故障手机的比例，如表2-8所示。

从表中可以看到：担保2年，需要维修的手机比例就达18.1%，担保3年，出现大故障的手机比例增加到25.9%，已经超过20%。所以，厂家应以2年为免费维修担保期。由此可见，如果厂家没有经过数据分析，盲目地推行15年的保修期承诺，将会给企业造成意想不到的沉重负担。

2.2 均匀分布

均匀概率分布是古典概率分布的连续形式，是指随机事件的可能结果是连续型数据变量，所有的连续型数据结果所对应的概率相等。均匀概率分布的概率密度函数为：

如果连续型随机变量x服从均匀概率分布，则x落在区间[a， b]内某个区间的概率只与这个区间的长度有关，而与该区间在[a， b]区间内的位置无关，概率公式可以表示为：

2.3 正态分布

正态概率分布是所有概率分布中最重要的形式，因为它表明被测事物处在稳定的状态下，测量数据的波动是由偶然因素引起的，所以在实践中有着广泛的应用。正态分布的概率密度函数就由均值和方差两个自变量构成：

· μ表示均值；
· σ表示标准差。

2.4 贝塔（beta）分布

如果抛硬币，抛出7次正面，3次反面，如何判断这个硬币的概率分布。注意我们都是贝叶斯主义者，硬币的概率是个随机变量，不要用频率主义去把概率当作一个定值。思考最简单的伯努利过程，7次正面，3次反面，概率分布是关于x的函数（随机变量），那么这个类似 Beta分布的函数就是：

3 均值抽样分布

均值抽样分布是样本参数信息与总体均值之间的桥梁，为下一步推断总体均值做好了准备。均值抽样分布有Z分布和T分布，可见下列使用条件表。

均值抽样分布适用条件表

3 方差和标准差的抽样分布

有卡方分布和F分布

3.1 卡方分布

3.1.1 卡方（χ2）统计量

卡方统计量是一个随机变量，它能够表明样本方差和总体方差之间的比值关系。卡方统计量决定的抽样分布就是卡方分布。

χ2是希腊字母，读作“卡方”； s2代表样本方差； · σ2代表总体方差；（n-1）代表自由度

3.1.2 卡方分布的定义

如果样本量为n的所有可能样本均取自方差为σ2的正态分布总体，对每一个样本都计算它的卡方值（χ2），那么这些卡方值将构成关于样本方差和总体方差的卡方分布。卡方分布是一个连续型概率分布，它的概率密度函数为：

·χ2代表卡方统计量； e是自然底数，等于2.72；
·v代表自由度，等于样本容量n-1；
·c代表调节常数，使得卡方分布曲线下方的总面积等于1。

3.1.3 卡方分布的应用

从卡方统计量的计算公式可知，卡方分布能够用于从样本方差到总体方差的推断性分析。除此之外，卡方分布还能用于非参数检验，被称为卡方检验。

3.2 F分布

F分布处理的则是两个总体之间的关系，即通过两个样本之间的关系推导出两个总体之间的关系。

3.2.1 F统计量

现在研究两个正态分布总体之间的方差关系，假设第一个正态分布总体的方差为，第二个正态分布总体的方差为，分别从两个正态分布总体中抽取样本容量为n1和n2的样本，样本方差分别为，设定F统计量，它的计算公式为：

3.2.2 F分布的定义

F分布是以英国统计学家Fisher的名字命名的连续型概率分布，与T分布和卡方分布一样， F分布也是一个概率分布族，由分子和分母的两个自由度决定一个F分布曲线， F分布的概率密度函数为：

3.2.3 F分布的应用

由F统计量的计算公式可知， F分布能够用于推断两个总体方差之间的比值关系。