几种常见的数学分布

1. 什么是数学期望

举个例子：某城市有10万个家庭，没有孩子的家庭有1000个，有一个孩子的家庭有9万个，有两个孩子的家庭有6000个，有3个孩子的家庭有3000个
(0 * 1000 + 1 * 90000 + 2 * 6000 + 3 * 3000) / 100000 = 1.11
数学期望(mean)（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和
0 * 0.01 + 1 * 0.9 + 2 * 0.06 + 3 * 0.03 = 1.11

2. 概率密度与累积分布

概率密度一般的写法是：P(X=a) = …，即X等于某个值a的可能性
累积分布一般的写法是：P(X<=a) = …，即X小于等于某个值a的所有可能性累加之和
这二者千万别弄混，否则就会被各种公式绕晕。下图是增量分布的概率密度图（橙色）和累积分布图（蓝色）。

3. 常见的分布

(1) 离散分布：
伯努利分布（零一分布，两点分布），二项分布，几何分布，泊松分布（Poisson分布）

(2) 连续分布：
指数分布，正态分布（高斯分布），均匀分布

(3) 抽样分布：
卡方分布（X²分布），F分布，T分布

(4) 其它分布：
多项分布，Beta分布，Dirichlet分布

4. 伯努利分布

(1) 应用场景
应用于两种实验结果。要么成功，要么失败，一定程度上是二元的性质。比如：一个硬币抛一次人结果。

(2) 描述
进行一次事件试验，该事件发生的概率为p，不发生的概率为1-p，任何一个只有两种结果的随机现象都服从0-1分布。

5. 二项分布

(1) 应用场景
在独立n次实验中成功次数，比如：一个硬币抛n次，k次正面朝上。

(2) 描述

上图是n=100, p=0.5（抛硬100次, 每一枚硬币正面朝上的概率为0.5），图中横轴为正面朝上的次数，纵轴为概率，可以看出正面朝上50次的可能性最大，为0.08左右。

6. 泊松分布

(1) 应用场景
某一区间内发生随机事件次数的概率分布，比如：每小时出生3个婴儿，某网站平均每分钟有2次访问。

(2) 描述
一个离散型随机变量X 满足：

这样看起来就很抽象了，推荐看一看参考中的《如何通俗理解泊松分布》，简单地说一下上述公式怎么用，以出生婴儿为例，λ是每小时出生的婴儿的平均数，k是3个婴儿，P(X=3)是每小时出生3个婴儿的概率。从λ中我们就能看出单位时间和发生事件的大概关系。

上图是λ=2时（平均每小时出生2个婴儿），出生0个的概率为0.14，出生1个的概率为0.27…

7. 几何分布

(1) 应用场景
第一次成功所进行的试验次数，比如：考几次能通过，抛几次硬币能出现正面。

(2) 描述
几何分布由n次伯努利分布构成，随机变量X表示第一次成功所进行试验的次数

从公式中很容易看出，经历了k-1次不中，和一次命中，以抛硬币为例，P(X=3)是抛三次能抛到一次正面向上概率，前两次都是背面朝上，第三次正面朝上。如果单个硬币正面朝上的概率为0.5，那么期望是2次。与二项分布相比，二项分布是抛n次硬币，有几次正面朝上，几何分布是抛几次出现第一次正布朝上。

上图是p=0.5时的几何分布，横轴是次数，可见抛一次就中的可能性最大为0.5，两次中的可能性为0.25…，次数越多，概率越小，整体平均下来基本是两次左右，因此，期望为2。从期望就可以看出，抛第几次能出正面，主要还是取决于硬币本身正面朝上的概率。

8. 指数分布

(1) 应用场景
两次随机事件发生时间间隔的概率分布，比如：婴儿出生的时间间隔，网站访问的时间间隔。

(2) 描述
指数分布满足以下概率密度函数公式

λ> 0是分布的一个参数，常被称为率参数（rate parameter）。即每单位时间内发生某事件的次数，还是生小孩为例，公式中的x是生两个孩子的时间间隔。
假设平均每一小时出生两个婴儿，则单位时间1小时出生2个婴儿，λ=2，期望e=0.5（平均间隔0.5小时），如左图所示。

假设平均每两小时出生一个婴儿，则单位时间1小时出生0.5个婴儿，λ=0.5，期望E=2（平均间隔2小时），如右图所示。 λ越大，曲线下降越快，可见，指数分布是几何分布的加强版。

上图中x轴是时间间隔，y轴是概率，不是说概率之和为1吗？为什么间隔为0的概率大于1呢？因为这是连续分布，某一点概率大于1（但它所在区域很窄），也不影响函数线下面积之和为1。

9. 正态分布

(1) 应用场景
连续型数据或者数据离散性小，数据基本符合正态分布特点。比如：群体的身高，智商，考试分数（中间多两边少）。

(2) 描述
若随机变量X服从一个数学期望为μ、方差o^2 为的高斯分布，记为N(μ，o^2)

上图是μ=1, o=2.0的正态分布，简单地说，就是基本都分布在以μ为中心，分散在o范围之内，比如：全班平均分80分，考100的也少，不及格的也少。

10. 抽样分布

(1) 一些概率

i. 抽样
如果整体样本可以一个一个判断叫普查，如果整体样本太多，没法一个一个判断，只能取一部分代表整体，叫抽样。

ii. 统计量
统计量是根据样本数据计算出来的一个量，他是样本的函数，通常我们所关心的样本统计量有品均数、样本标准差等等。

iii. 抽样分布
抽样分布也称统计量分布，以样本平均数为例，它是总体平均数的一个估计量，如果按照相同的样本容量，相同的抽样方式，反复地抽取样本，每次可以计算一个平均数，所有可能样本的平均数所形成的分布，就是样本平均数的抽样分布。卡方分布，T分布，F分布都是抽样分布。

(2) 卡方分布
设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ^2=X12+X2^2+......+Xn2所服从的分布为自由度为 n 的χ2分布.

(3) T分布
设X1服从标准正态分布N(0,1)，X2服从自由度为n的χ2分布，且X1、X2相互独立，则称变量t=X1/((X2/n)^(1/2)) 所服从的分布为自由度为n的t分布。

(4) F分布

设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布，且X1、X2相互独立，则称变量F=(X1/m)/(X2/n)所服从的分布为F分布，其中第一自由度为m,第二自由度为n 。

11. 参考

(1) 几种常见的分布
https://wenku.baidu.com/view/dc16311a777f5acfa1c7aa00b52acfc789eb9f04.html

(2) 如何通俗理解泊松分布
https://blog.csdn.net/ccnt_2012/article/details/81114920