泊松分布和指数分布,包你学会

当你学习指数分布的时候,经常会看到泊松分布的身影,网上的大部分教程讲的非常复杂,看完之后还是一头雾水。

本文本着通俗易懂的原则,使用生活中的例子,说明泊松分布和指数分布的关系。一下子学会了两种分布,有没有很有成就感?

泊松分布

在日常生活中,许多事件是有一定的频率的,比如下面的例子。

某公司平均每一小时接到三个用户电话。
某超市平均每五小时卖掉一个玩具。
一个网站平均每一分钟有二次访问。

你有没有发现上面事件的一些共同点?细心的你会发现,上面的事件,只能估计事件发生的总数,但是不能知道具体发生的时间。如果我问你,上面的第一个例子,平均每一小时接到一个用户电话,下一小时接到几个电话?我们并不能准确知道。
泊松分布和指数分布,包你学会_第1张图片
泊松分布便是描述某段时间内,事件发生的次数的概率。

泊松分布的概率密度函数公式如下,

P ( N ( t ) = n ) = ( λ t ) n e − λ t n ! P(N(t)=n)=\frac{(\lambda t)^ne^{-\lambda t}}{n!} P(N(t)=n)=n!(λt)neλt
上面的式子中, P P P表示概率, N N N表示某种函数关系, t t t表示时间段, n n n表示事件发生的次数。一小时内接到一个用户电话的概率表示为 P ( N ( 1 ) = 3 ) P(N(1)=3) P(N(1)=3) λ \lambda λ表示事件的频率。

为了理解的更深入,咱们再多举一些例子。

接下来两个小时,一个用户电话也没有的概率是0.025%,发生概率约等于零,计算方法如下所示,
P ( N ( 2 ) = 0 ) = ( 3 × 2 ) 0 e − 3 × 2 0 ! ≈ 0.0025 P(N(2)=0)=\frac{(3\times2)^0e^{-3\times2}}{0!}\approx 0.0025 P(N(2)=0)=0!(3×2)0e3×20.0025

接下来一个小时,至少有两个用户电话的概率是80%。计算方法如下所示,
P ( N ( 1 ) ≥ 2 ) = 1 − P ( N ( 1 ) = 0 ) − P ( N ( 1 ) = 1 ) = 1 − ( 3 × 1 ) 0 e − 3 × 1 0 ! − ( 3 × 1 ) 1 e − 3 × 1 1 ! = 1 − e − 3 − 3 e − 3 = 1 − 4 e − 3 ≈ 0.8009 \begin{aligned} P(N(1)\geq 2)&=1-P(N(1)=0)-P(N(1)=1) \\ &=1-\frac{(3\times1)^0e^{-3\times1}}{0!}-\frac{(3\times1)^1e^{-3\times1}}{1!} \\ &=1-e^{-3}-3e^{-3} \\ &=1-4e^{-3} \\ &\approx 0.8009 \end{aligned} P(N(1)2)=1P(N(1)=0)P(N(1)=1)=10!(3×1)0e3×11!(3×1)1e3×1=1e33e3=14e30.8009

通过上面的例子,相信大家对泊松分布的理解又上了一层楼。

泊松分布的概率密度图大概长下面的样子,
泊松分布和指数分布,包你学会_第2张图片
在频率附近,事件的发生的概率最大。两边对称下降,意思是事件发生次数越大和越小概率越来越小。每小时接到三个用户的电话的概率是最大的,接到更多和更少的电话次数的概率变得越来越小。

指数分布

下面这些例子全是指数分布。

来电的时间间隔。
玩具销售的时间间隔。
网站访问的时间间隔。

细心的你发现了,上面的例子的共同点,时间间隔。

指数分布描述事件发生的时间间隔的概率。

指数分布和泊松分布有什么关系呢?指数分布的概率密度函数能从泊松分布的概率密度函数推导出来。

为了通俗易懂,还是举例子来说明。

假如下一个用户电话的间隔时间是 t t t,等价于 t t t时间内没有任何用户打电话。用公式表示如下所示,

P ( X > t ) = P ( N ( t ) = 0 ) = ( λ t ) 0 e − λ t 0 ! = e − λ t \begin{aligned} P(X>t)&=P(N(t)=0) \\ &=\frac{(\lambda t)^0e^{-\lambda t}}{0!} \\ &=e^{-\lambda t} \end{aligned} P(X>t)=P(N(t)=0)=0!(λt)0eλt=eλt
有了上式,用户在 t t t时间内打电话的概率是1减去上面的概率
P ( X ≤ t ) = 1 − P ( X > t ) = 1 − e − λ t \begin{aligned} P(X\leq t)&=1-P(X>t) \\ &=1-e^{-\lambda t} \end{aligned} P(Xt)=1P(X>t)=1eλt

有了上面的公式,我们计算一下接下来15分钟内,有用户打电话的概率是
P ( X ≤ 0.25 ) = 1 − P ( X > t ) = 1 − e − 3 × 0.25 ≈ 0.5276 \begin{aligned} P(X\leq 0.25)&=1-P(X>t) \\ &=1-e^{-3\times 0.25} \\ &\approx0.5276 \end{aligned} P(X0.25)=1P(X>t)=1e3×0.250.5276
我们再计算一下,用户接下来在15到30分钟内打电话的概率是
P ( 0.25 ≤ X ≤ 0.5 ) = P ( X ≤ 0.5 ) − P ( X ≤ 0.25 ) = ( 1 − e − 3 × 0.5 ) − ( 1 − e − 3 × 0.25 ) = e − 0.75 − e − 1.5 ≈ 0.2492 \begin{aligned} P(0.25\leq X\leq 0.5)&=P(X\leq 0.5)-P(X\leq 0.25) \\ &=(1-e^{-3\times 0.5})-(1-e^{-3\times 0.25}) \\ &=e^{-0.75}-e^{-1.5} \\ &\approx 0.2492 \end{aligned} P(0.25X0.5)=P(X0.5)P(X0.25)=(1e3×0.5)(1e3×0.25)=e0.75e1.50.2492

理解了吗?指数分布描述的是时间发生的时间间隔的概率。

指数分布的概率密度函数长下面的样子。
泊松分布和指数分布,包你学会_第3张图片
因为概率密度函数图像呈现指数衰减的样子,所以起名叫指数分布。

从上图能知道,随着时间间隔变长,事件发生的概率急剧下降。是指数式衰减的。

还是上面的例子,每个小时内有三个用户打电话,下一个用户间隔2小时打电话的概率是0.25%,那么间隔3小时,4小时的概率,更加接近于0。

总结

一句话来说。

泊松分布是单位时间内独立事件发生次数的概率分布。

指数分布是独立事件的时间间隔的概率分布。

你可能感兴趣的:(机器学习)