[Skill]程序员须掌握的概率统计基础知识

前言

计算机科学作为理工科一个独特的分支，本质上仍然是建立在逻辑思维上的一门科学，良好的概率论思维有助于设计高效可行的算法。

常见的概率分布

1. 古典概型和几何概型

古典概型适用于随机事件的样本空间只有有限个样本点，而几何概型适用于样本空间是某一可度量的几何区域。

古典概型

设随机实验的样本空间为，其中为样本点总数，每个样本点出现的概率是相等的，并且每次实验有且仅有一个样本点发生。如果事件包含个样本点，那么对应的概率为：

几何概型

当随机实验的样本空间是某一可度量的几何区域，并且任意一点在度量（长度、面积和体积等）相同的子区域内是等概率的，则事件的概率为：

2. 条件概率

即在某个事件已经发生的条件下另一事件发生的概率。

设和是两个事件，而且，称：

为在事件发生的条件下，事件发生的条件概率。

3. 三条重要的公式：乘法公式、全概率公式和贝叶斯公式

乘法公式

根据条件概率公式，我们可以得到：

可推广到任意正整数的情形，当时，有：

全概率公式

也是基于条件概率公式推导的，如果是样本空间的一个划分，即满足互不相交且：

对于任意事件，我们可以得到全概率公式如下：

贝叶斯公式

整合了乘法公式和全概率公式：

4. 独立事件

如果两事件发生的概率等于这两个事件发生概率的乘积，则可以认为这俩事件独立，即：

这是从统计学上给出的独立定义，现实生活中我们也可以通过经验敲定两个事件的大致独立性，尽管它们可能存在千丝万缕的关联。

5. n重伯努利实验

如果一个随机试验只有两种可能的结果和，且：

那么此试验即是伯努利实验，如果该实验独立重复地进行次就是重伯努利试验。设为重伯努利实验中出现次的概率，则可表示为：

这就是二项分布，常记成。

常见的分布函数

1.随机变量的分布函数

设为一个随机变量，则对任意的实数，该随机变量的分布函数可表示为：

2.离散型随机变量的分布

离散型随机变量

离散型随机变量指的是随机变量的全部可能取值为有限多个或可列无穷多个。

记离散型随机变量取值为的概率为，离散型随机变量的分布律满足且

两点分布

两点分布中随机变量的分布律为：

伯努利分布

若随机变量服从参数为和的二项分布，则其分布律满足：

其代表的含义表示重伯努利实验中恰好发生次的概率。

泊松分布

若随机变量服从参数为的泊松分布，则其分布律满足：

3.连续型随机变量的分布

连续型随机变量

如果为连续型随机变量，则存在一个定义在上的非负函数，使得对于任意实数，总有：

均匀分布

若随机变量服从区间上的均匀分布，则其概率密度函数为：

指数分布

若随机变量服从参数为\lambda的指数分布，则其概率密度函数为：

正态分布

若随机变量服从参数为和的正态分布，则其概率密度函数为：

3.离散型二维随机向量

记离散型而维随机向量取值为的概率为，且其分布律满足。

4.连续型二维随机向量

如果是连续型的二维随机向量，则存在一个非负函数使得对于任意的均满足：

二维均匀分布

若二维连续型随机向量在区域内服从二维均匀分布（其中区域的面积值为），则其概率密度函数为：

二维正态分布

若二维连续型随机向量服从参数为的二维正态分布，则其概率密度函数为：

随机变量的数字特征

1.数学期望

数学期望指的就是随机变量在不同概率下的取值的平均值。

离散型随机变量的数学期望为：

连续型随机变量的数学期望为：

2.方差

方差用于描述随机变量取值相对于均值的离散程度，从一定程度上描述了随机变量的“不稳定性”。

设为随机变量，则其方差可表述为：

也被称为的标准差standard deviation或均方差root mean square。

3.协方差

协方差用于描述两个随机变量之间的线性联系关系。

设为两个随机变量，则其协方差可表述为：

4.相关系数

如果采用协方差来描述两个随机变量之间的线性联系关系，常常会受限于随机变量本身的量纲，数学中常采用标准化的方法来去除量纲的影响，这也是相关系数引入的一个原因。

随机变量的相关系数可以表述为：

极限定理

极限定理是概率论的基本定理之一，在概率论和数理统计的理论研究和实际应用中都具有重要的意义。在极限定理中，最重要的就是大数定理和中心极限定理。

1.大数定理

大数定理是判断随机变量的算数平均值是否向常数收敛的定律，是概率论和数理统计的基本定律之一。设是随机变量序列且存在，令，若对于任意给定的，有：

则称随机变量序列服从大数定律。

伯努利大数定律

设是次独立重复试验中事件发生的次数，是事件在每次试验中发生的概率，则对于任意的正数，有：

伯努利大数定理从一定角度揭示了“频率稳定于概率”说法的实质。

切比雪夫大数定律

设随机变量相互独立，且具有相同的期望与方差，则对于任意的正数，有：

辛倾大数定律

设随机变量相互独立，服从相同的分布，且其期望，则对于任意的正数，有：

2.切比雪夫不等式

揭示了大数定律背后的数学原理。

设随机变量具有期望，方差，则对于任意，有：

3.中心极限定理

中心极限定理用于判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产、科学实践中，一些现象收到许多相互独立的随机因素的影响，如果每个因素的影响都很小，那么总的影响可以看作是服从正态分布，中心极限定理正是从数学上论证了这一现象。

凡是在一定条件下，断定随机变量序列的部分和的极限分布为正态分布的定理，均称为中心极限定理。

独立同分布的中心极限定理

设随机变量相互独立，服从同一分部，并且具有期望和方差：，则随机变量：

的分布函数收敛至标准正态分布函数。从中心极限定理可知，当足够大时，近似服从标准正态分布。

4.拉普拉斯中心极限定理

设随机变量相互独立，并且服从参数为的两点分布，则对于任意实数，有：

服从二项分布，当足够大时，近似于正态分布，它是独立同分布的中心极限定理的特殊情况。

数理统计的基本概念

1.总体，个体和简单随机样本

在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体，组成总体的每个基本单元叫做个体。从总体中随机抽取一部分个体，称其为取自的容量为的样本。

若总体具有分布函数，则的概率联合分布为：

联合概率密度函数：

2.统计量与抽样分布

数理统计的任务是采集和处理带有随机影响的数据，或者说收集样本并对之进行加工，一次对所研究的问题做出一定的结论，这一过程被称为统计推断。在统计推断中，对样本进行加工整理，实际上就是根据样本计算出一些量，使得这些量能够将所研究问题的信息集中起来。这些根据样本计算出的量就是下面将要定义的统计量，因此统计量是样本的某中函数。

设是总体的一个简单随机样本，为一个元连续函数，且中不含任何关于总体的未知函数，则称其为一个统计量，称统计量的分布为抽样分布。

3.常用的统计量

常用的统计量包括样本均值、样本方差、阶样本原点矩、阶样本中心矩和顺序统计量等。

4.常用的分布

卡方分布

设是来自总体的一个简单随机样本则称统计量：

为服从自由度为的分布。

t分布

设，且相互独立，则称随机变量：

为服从自由度为的分布。

F分布

设，且和相互独立，则称随机变量：

为服从自由度为的分布。

Reference

[1] 统计建模与R语言