本文讲讲 Poisson 分布. 希望能简单到让你能看懂.
首先, 我们从抛硬币说起. 说, 我们有一枚不均匀的硬币, 每次抛得到正面的概率是 p = 0.4 p=0.4 p=0.4, 得到反面的概率是 1 − p = 0.6 1-p=0.6 1−p=0.6. 令
事 件 E 1 = 抛 硬 币 的 结 果 事件 E_1=抛硬币的结果 事件E1=抛硬币的结果
有点基础的同学应该知道事件 E 1 E_1 E1 是服从伯努利分布的 E 1 ∼ Bern ( p ) E_1\sim \text{Bern}(p) E1∼Bern(p). 即,
Pr ( E 1 = 正 面 ) = p \Pr (E_1=正面)=p Pr(E1=正面)=p
Pr ( E 1 = 反 面 ) = 1 − p \Pr (E_1=反面)=1-p Pr(E1=反面)=1−p
那如果我抛多次硬币能观察到多少次正面(或反面)尼? 好像初中时候就讲过了, 这叫二项分布. 令
事 件 E 2 = 抛 n 次 硬 币 后 观 测 到 正 面 的 次 数 事件 E_2=抛~n~次硬币后观测到正面的次数 事件E2=抛 n 次硬币后观测到正面的次数
则事件 E 2 E_2 E2 服从二项分布 E 2 ∼ Bin ( n , p ) E_2\sim \text{Bin}(n,p) E2∼Bin(n,p):
Pr ( E 2 = k ) = ( n k ) p k ( 1 − p ) n − k \Pr(E_2=k)= {n \choose k}p^k(1-p)^{n-k} Pr(E2=k)=(kn)pk(1−p)n−k
So far so good? 以上内容应该不难理解.
好, 现在进入正题. 泊松分布是干嘛的尼? 我们来思考这样一个问题, 如果一个事件在每个时刻发生的概率都一样, 那么, 如果给定了这个事件的平均发生次数 (比如每秒发生 λ \lambda λ 次),
第一步, 我们来看看我们知道什么. 看看题, 我们知道 “这个事件的平均发生次数是 λ \lambda λ 次每秒”.
第二步, 时间细化. 由于这个事件在每个时刻发生的概率都一样, 所以其实我们可以把时间划成很多很多小份.
说干就干,我们把每秒分成 n n n 小份, n → ∞ n\to\infty n→∞, 那么这 n n n 小份中, 有 λ \lambda λ 小份是发生了事件的, 所以实际上每小份发生事件的概率就是 λ n \frac{\lambda}{n} nλ.
第三步, 那么 T T T 秒内有多少个小份尼? 很简单了吧 n T nT nT.
现在我再问你, T T T 秒这个事件发生 k k k 次的概率是多少, 会答了吗? 是的, 直接把它当做抛硬币抛 n T nT nT 次每次出现事件的概率是 λ n \frac{\lambda}{n} nλ 即可. 根据二项分布公式, 你的答案应该是
Pr ( E 3 = k ) = ( n T k ) p k ( 1 − p ) n T − k \Pr(E_3=k)= {nT \choose k}p^k(1-p)^{nT-k} Pr(E3=k)=(knT)pk(1−p)nT−k
其中
事 件 E 3 = T 秒 事 件 发 生 的 次 数 事件 E_3= T 秒事件发生的次数 事件E3=T秒事件发生的次数
这个答案是对的, 但是我们可以用 n → ∞ n\to\infty n→∞ 把它写的更简单点
lim n → ∞ Pr ( E 3 = k ) = lim n → ∞ ( n T k ) ( λ n ) k ( 1 − λ n ) n T − k \lim_{n\rightarrow\infty}\Pr(E_3=k)= \lim_{n\rightarrow\infty}{nT \choose k}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{nT-k} n→∞limPr(E3=k)=n→∞lim(knT)(nλ)k(1−nλ)nT−k
= lim n → ∞ ( n T ) ! k ! ( n T − k ) ! ( λ n ) k ( 1 − λ n ) n T ( 1 − λ n ) − k = \lim_{n\rightarrow\infty}\frac{(nT)\,!}{k\,!(nT-k)\,!}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{nT}\left(1-\frac{\lambda}{n}\right)^{-k} =n→∞limk!(nT−k)!(nT)!(nλ)k(1−nλ)nT(1−nλ)−k
= lim n → ∞ ( n T ) ( n T − 1 ) . . . ( n T − k + 1 ) n k λ k k ! ( 1 − λ n ) n T ( 1 − λ n ) − k = \lim_{n\rightarrow\infty}\frac{(nT)(nT-1)...(nT-k+1)}{n^k}\frac{\lambda^k}{k\,!}\left(1-\frac{\lambda}{n}\right)^{nT}\left(1-\frac{\lambda}{n}\right)^{-k} =n→∞limnk(nT)(nT−1)...(nT−k+1)k!λk(1−nλ)nT(1−nλ)−k
= ( λ T ) k k ! e − λ T =\frac{(\lambda T)^k}{k\,!}e^{-\lambda T} =k!(λT)ke−λT
这便是泊松分布的概率密度函数了。
简而言之,Poisson distribution是用来衡量一段时间内事件发生次数的分布。只要这个事件在每一时刻都是等概率发生,而且我们已经知道了他一段时间内的平均发生次数 λ \lambda λ (次/单位时间), 令随机变量 X X X 表示 T T T 时间内事件发生次数, 则有
Pr ( X = k ) = ( λ T ) k k ! e − λ T , k = 0 , 1 , 2 , . . . \Pr(X=k)=\frac{(\lambda T)^k}{k\,!}e^{-\lambda T},~k=0,1,2,... Pr(X=k)=k!(λT)ke−λT, k=0,1,2,...