怎样理解泊松分布

一直不是特别理解泊松分布,只知道分布函数的公式。最近听了可汗学院的两节讲解,根据自己的理解记录一下。
文后有可汗学院公开课链接。

1. 定义

【维基百科】 泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。

2. 理解

举个例子:求某道路某地点每小时经过车辆数的分布。

1.求的是什么的分布

随机变量 X:每小时经过的车辆数
密度函数:P(X=k):每小时经过k量车的概率
所以实际上求的就是每小时经过k辆车的概率分布。

2.与投掷多次硬币事件有什么关系

Note:
投掷多次硬币(假设60次)的时候,每次投掷都是独立的,正面概率为p,我们将投掷60次硬币,获得多少正面记为随机变量X,得到的概率分布为二项分布。

同样的,我们可以将“每小时经过的车辆数”看成是60分钟里,每分钟经过车辆数的和。我们将每分钟内有车经过指定地点看成事件成功,而没有车经过看成事件失败。一个小时,看成是独立重复60次试验。将这个问题转化为一个二项分布问题。

3. 如何求独立时间成功概率p

Note:
通过观察已知平均每小时通过的车辆数为ℷ,ℷ为数学期望,因为符合二项分布,所以数学期望ℷ=np
每个单位时间内某指定地点经过车辆的概率为ℷ/n, n为将1小时划分为多少个单位时间段。

4. 问题的转化

假设求解P(X=3)每小时经过3辆车的概率。

将一小时划分成60分钟,密度函数转化为(从60分钟里挑选出 3 个 1 分钟的可能组合数)* 任意一分钟有车经过的概率(ℷ/60)* 任意一分钟没有车经过的概率(1-ℷ/60)
这可能存在的问题是,每分钟不止经过一辆车,单次时间的概率总是为1。
我们可以继续将时间段变小,变成秒,则密度函数为:(从3600秒里挑选出 3 秒的可能组合)* 任意一秒有车经过的概率(ℷ/3600)* 任意一秒没有车经过的概率(1-ℷ/3600)
这可能还是存在问题,可能每一秒都不止一辆车通过。

所以我们需要将时间段无限细分,就像是抛掷无数次硬币,求解得到正面为k次的分布。

3. 公式推导

lim ⁡ n − > ∞ ( k n ) ∗ ( λ n ) k ∗ ( 1 − λ n ) n − k = lim ⁡ n − > ∞ n ! ( n − k ) ! k ! ∗ λ k n k ∗ ( 1 − λ n ) n ∗ ( 1 − λ n ) − k = lim ⁡ n − > ∞ n ( n − 1 ) . . . ( n − k + 1 ) n k ∗ λ k k ! ∗ lim ⁡ n − > ∞ ( 1 − λ n ) n ∗ lim ⁡ n − > ∞ ( 1 − λ n ) − k = 1 ∗ λ k k ! ∗ e − λ ∗ 1 = λ k k ! ∗ e − λ \begin{aligned} \lim_{n->\infty}(^n_k) * (\frac{\lambda}{n})^k*(1-\frac{\lambda}{n})^{n-k} \\\\ = \lim_{n->\infty}\frac{n!}{(n-k)!k!} * \frac{\lambda^k}{n^k} * (1-\frac{\lambda}{n})^n * (1-\frac{\lambda}{n})^{-k} \\\\ = \lim_{n->\infty}\frac{n(n-1)...(n-k+1)}{n^k} * \frac{\lambda^k}{k!} * \lim_{n->\infty}(1-\frac{\lambda}{n})^n * \lim_{n->\infty}(1-\frac{\lambda}{n})^{-k} \\\\= 1 * \frac{\lambda^k}{k!} * e^{-\lambda} * 1 \\\\= \frac{\lambda^k}{k!} * e^{-\lambda} \end{aligned} n>lim(kn)(nλ)k(1nλ)nk=n>lim(nk)!k!n!nkλk(1nλ)n(1nλ)k=n>limnkn(n1)...(nk+1)k!λkn>lim(1nλ)nn>lim(1nλ)k=1k!λkeλ1=k!λkeλ

4. 总结

泊松分布其实就是一个特殊的二项分布,当二项分布的试验次数 n 无穷大的时候,需要得到成功次数为k的分布就是泊松分布。
因为通常时间是一个可以无限细分的量,所以泊松分布常应用于某时间段内事件成功的概率问题。

拓展链接:
可汗学院-泊松分布1
可汗学院-泊松分布2

你可能感兴趣的:(数学基础)