二项分布、泊松分布以及指数分布之间的关系

二项分布

二项分布即是n重伯努利分布,而伯努利分布定义即是:随机变量X的取值为离散的1,0值,分别对应p的概率取值1和以1-p的概率取值0.

而二项分布对应的随机变量X即是n次伯努利事件后成功(取值为1)的次数.则此时X的分布为:$P(X=k)=C_n^kp^k(1-p)^{n-k}$

泊松分布

泊松分布是描述某段时间内某事件发生的次数,并且泊松分布认为事件的发生是随机且独立的(当然肯定有不满服泊松分布的事件)。该分布的数学形式为:$P(X=k)=\frac{\lambda^ke^{-\lambda}}{k!}$
其中k是一段时间内事件发生的次数,$\lambda$是一段时间内事件发生次数的数学期望值,e为自然常数。

那么泊松分布与二项分布究竟有什么关系呢?
假设$\lambda$为一段时间内某事件发生次数的期望值,并且按照泊松分布的定义该事件的发生是随机且独立的,即可以理解为“均匀的”。那么我们把该段时间等分为n份,则每一份子时间段内该事件发生的发生概率可以定义为$\frac{\lambda}{n}$。自然的,由二项分布可以得出在该段时间内某事件发生k次的概率为:
$P(X=k)=C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$

当n值极大,趋近于无穷$\infty$时有:
$\lim_{n\to\infty}C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$
=$\frac{n(n-1)(n-2)....(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$
=$\frac{n(n-1)(n-2)....(n-k+1)}{k!}\frac{\lambda^k}{n^k}\frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k}$
=$\frac{n(n-1)(n-2)....(n-k+1)}{n^k}\frac{\lambda^k}{k!}\frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k}$
=$\frac{n}{n}\frac{n-1}{n}....\frac{n-k+1}{n}\frac{\lambda^k}{k!}\frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k}$
对于该式,可以看出当n趋于$\infty$时,$\frac{n}{n}和\frac{n-1}{n}直到\frac{n-k+1}{n}$的极限值都为1。对于$\frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k}$,它的分母$(1-\frac{\lambda}{n})^k$可知当n趋于$\infty$时,它的值也为1;对于分子$(1-\frac{\lambda}{n})^n$,由求自然常数e的极限公式可得它的值为$e^{-\lambda}$。那么自然就可以得出:$\frac{\lambda^ke^{-\lambda}}{k!}$,即泊松分布可以看成是n值极大时的二项分布。

指数分布

指数分布与前两个分布相比,是连续型的分布。指数分布的随机变量为事件发生的时间间隔,这些事件仍然是独立随机的(本文所述的三个分布均符合该假设)。

指数分布的分布函数为:$F(t)=P(X

$$ \begin{cases} 1-e^{-\lambda t} ,t>=0 \\ 0 , t<0 \\ \end{cases} $$

对应的,指数分布的概率密度函数:$f(x)=$

$$ \begin{cases} \lambda e^{-\lambda t} ,t>=0 \\ 0 , t<0 \\ \end{cases} $$

那么指数分布和泊松分布有什么关系呢?

这里先回顾一下泊松分布,它是对于某一段固定时间的,我们可以通过泊松分布的公式求出该段时间内事件发生次数为x的概率,那么如果我们想求出t时间内事件发生的次数(t不一定等于该段时间长度)该怎么办呢?

其实根据对泊松分布公式的由二项分布衍化而来的推导可以看出,它的假设即是:1.某一段固定时间事件发生次数的期望值$\lambda$。2.事件的发生是随机独立的。那么对于t时间,只要知道该段时间内的事件发生次数的期望值即可!之前我们的假设中对于$\lambda$的值是对应于某一段时间的,我们这里把它重新定义为单位时间内事件发生次数的期望值,则t时间内事件发生次数的期望为$\lambda t$。则t时间内事件发生k次对应的概率为:$P(X=k)=\frac{(\lambda t)^ke^{-\lambda t}}{k!}$

再回到我们一开始的问题,我们已经知道t时间内事件发生k次的概率,则t时间内事件不发生的概率即为:$P(X=0)=\frac{(\lambda t)^0e^{-\lambda t}}{0!}=e^{-\lambda t}$,那么t时间内事件发生的概率就是$1-e^{-\lambda t}$了,正好对应了指数分布的概率分布函数。

参考资料

泊松分布 (Poisson Distributions) 的推导
泊松分布的概率公式(10分钟了解泊松分布)

你可能感兴趣的:(机器学习,数学)