Poisson Distribution 1: 从二项分布到泊松分布

本文讲讲 Poisson 分布. 希望能简单到让你能看懂.

伯努利分布

首先, 我们从抛硬币说起. 说, 我们有一枚不均匀的硬币, 每次抛得到正面的概率是 p = 0.4 p=0.4 p=0.4, 得到反面的概率是 1 − p = 0.6 1-p=0.6 1p=0.6. 令
事 件 E 1 = 抛 硬 币 的 结 果 事件 E_1=抛硬币的结果 E1=

有点基础的同学应该知道事件 E 1 E_1 E1 是服从伯努利分布的 E 1 ∼ Bern ( p ) E_1\sim \text{Bern}(p) E1Bern(p). 即,
Pr ⁡ ( E 1 = 正 面 ) = p \Pr (E_1=正面)=p Pr(E1=)=p

Pr ⁡ ( E 1 = 反 面 ) = 1 − p \Pr (E_1=反面)=1-p Pr(E1=)=1p

二项分布

那如果我抛多次硬币能观察到多少次正面(或反面)尼? 好像初中时候就讲过了, 这叫二项分布. 令
事 件 E 2 = 抛   n   次 硬 币 后 观 测 到 正 面 的 次 数 事件 E_2=抛~n~次硬币后观测到正面的次数 E2= n 
则事件 E 2 E_2 E2 服从二项分布 E 2 ∼ Bin ( n , p ) E_2\sim \text{Bin}(n,p) E2Bin(n,p):
Pr ⁡ ( E 2 = k ) = ( n k ) p k ( 1 − p ) n − k \Pr(E_2=k)= {n \choose k}p^k(1-p)^{n-k} Pr(E2=k)=(kn)pk(1p)nk

So far so good? 以上内容应该不难理解.

泊松分布

好, 现在进入正题. 泊松分布是干嘛的尼? 我们来思考这样一个问题, 如果一个事件在每个时刻发生的概率都一样, 那么, 如果给定了这个事件的平均发生次数 (比如每秒发生 λ \lambda λ 次),

  1. 你能求出来任意一段时间 (比如 T T T 秒) 内这个事件的平均发生次数吗?
    你可以, 显然就是 λ T \lambda T λT. 而且注意, 由于这个事件是时间均匀的每个时刻发生的概率都一样, 所以我们任意取 T T T 秒平均发生的次数都是 λ T \lambda T λT.
  2. 好,思考下一个问题, 你能求出来任意一段时间 (比如 T T T 秒) 内这个事件发生 k k k 次的概率吗?
    好像很简单的样子, 但是怎么求尼? 我们来看看怎么求.

第一步, 我们来看看我们知道什么. 看看题, 我们知道 “这个事件的平均发生次数是 λ \lambda λ 次每秒”.

第二步, 时间细化. 由于这个事件在每个时刻发生的概率都一样, 所以其实我们可以把时间划成很多很多小份.

说干就干,我们把每秒分成 n n n 小份, n → ∞ n\to\infty n, 那么这 n n n 小份中, 有 λ \lambda λ 小份是发生了事件的, 所以实际上每小份发生事件的概率就是 λ n \frac{\lambda}{n} nλ.

第三步, 那么 T T T 秒内有多少个小份尼? 很简单了吧 n T nT nT.

现在我再问你, T T T 秒这个事件发生 k k k 次的概率是多少, 会答了吗? 是的, 直接把它当做抛硬币抛 n T nT nT 次每次出现事件的概率是 λ n \frac{\lambda}{n} nλ 即可. 根据二项分布公式, 你的答案应该是
Pr ⁡ ( E 3 = k ) = ( n T k ) p k ( 1 − p ) n T − k \Pr(E_3=k)= {nT \choose k}p^k(1-p)^{nT-k} Pr(E3=k)=(knT)pk(1p)nTk

其中
事 件 E 3 = T 秒 事 件 发 生 的 次 数 事件 E_3= T 秒事件发生的次数 E3=T

这个答案是对的, 但是我们可以用 n → ∞ n\to\infty n 把它写的更简单点
lim ⁡ n → ∞ Pr ⁡ ( E 3 = k ) = lim ⁡ n → ∞ ( n T k ) ( λ n ) k ( 1 − λ n ) n T − k \lim_{n\rightarrow\infty}\Pr(E_3=k)= \lim_{n\rightarrow\infty}{nT \choose k}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{nT-k} nlimPr(E3=k)=nlim(knT)(nλ)k(1nλ)nTk

= lim ⁡ n → ∞ ( n T )   ! k   ! ( n T − k )   ! ( λ n ) k ( 1 − λ n ) n T ( 1 − λ n ) − k = \lim_{n\rightarrow\infty}\frac{(nT)\,!}{k\,!(nT-k)\,!}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{nT}\left(1-\frac{\lambda}{n}\right)^{-k} =nlimk!(nTk)!(nT)!(nλ)k(1nλ)nT(1nλ)k

= lim ⁡ n → ∞ ( n T ) ( n T − 1 ) . . . ( n T − k + 1 ) n k λ k k   ! ( 1 − λ n ) n T ( 1 − λ n ) − k = \lim_{n\rightarrow\infty}\frac{(nT)(nT-1)...(nT-k+1)}{n^k}\frac{\lambda^k}{k\,!}\left(1-\frac{\lambda}{n}\right)^{nT}\left(1-\frac{\lambda}{n}\right)^{-k} =nlimnk(nT)(nT1)...(nTk+1)k!λk(1nλ)nT(1nλ)k

= ( λ T ) k k   ! e − λ T =\frac{(\lambda T)^k}{k\,!}e^{-\lambda T} =k!(λT)keλT

这便是泊松分布的概率密度函数了。

总结

简而言之,Poisson distribution是用来衡量一段时间内事件发生次数的分布。只要这个事件在每一时刻都是等概率发生,而且我们已经知道了他一段时间内的平均发生次数 λ \lambda λ (次/单位时间), 令随机变量 X X X 表示 T T T 时间内事件发生次数, 则有
Pr ⁡ ( X = k ) = ( λ T ) k k   ! e − λ T ,   k = 0 , 1 , 2 , . . . \Pr(X=k)=\frac{(\lambda T)^k}{k\,!}e^{-\lambda T},~k=0,1,2,... Pr(X=k)=k!(λT)keλT, k=0,1,2,...

你可能感兴趣的:(Stochastic,Process)