泊松分布

写在前面的参考文献:
1
2
3
[4]Bertsekas.概率导论[M]
**

泊松分布

**
在概率论和统计学中,泊松分布以法国数学家西门·丹尼斯·泊松命名,是一种离散概率分布,表示给定数量的事件在固定的时间间隔和/或空间内发生的概率,如果这些事件以已知的平均速率发生,并且与上一事件发生后的时间无关。泊松分布也可用于其他指定间隔内的事件数例如距离、面积或体积。
例如,一个人在记录每天收到的邮件数量时可能会注意到他们平均每天收到4封信。如果接收任何特定邮件不影响未来邮件的到达时间,即,如果来自不同来源的邮件彼此独立到达,则合理的假设是每天收到的邮件数量服从泊松分布。其他可能遵循泊松分布的示例:呼叫中心每小时接到的电话数或每秒来自放射源的衰变事件数。

Poisson分布简介

Poisson分布是用来模拟一个事件在时间或空间间隔内发生的次数。

例子

泊松分布可能有助于模拟事件,例如一年中撞击地球的直径大于1米的流星数量,基因中DNA序列“ACGT”的出现次数,晚上11点到12点到达急诊室的病人人数。

假设:什么时候泊松分布是一个合适的模型?

如果以下假设成立,泊松分布是一个合适的模型。
(1) K是一个事件在一个时间间隔内发生的次数,K可以取0,1,2,…
(2) 一个事件的发生不影响第二个事件发生的概率。也就是说,事件是独立发生的。
(3) 事件发生的速率是恒定的。在某些时间间隔内,比率不能较高,而在其他时间间隔内则不能较低。
(4) 两个事件不能同时发生。
(5) 一个事件在一个小间隔内发生的概率与间隔的长度成正比。
如果这些条件成立,那么K是Poisson随机变量,K的分布是Poisson分布。也就是说必须是随机变量必须是离散的、独立的、小概率均匀事件、事件在某段时间(空间)中发生的次数的期望是固定的(可以参考泊松分布和二项分布的关系以及下文泊松成立与不成立的例子)

泊松分布的事件概率

一个事件在一个区间内可以发生0,1,2,…次。间隔中的平均事件数指定为λ(lambda)。Lambda是事件速率,也称为速率参数。在一个区间内观测到k个事件的概率由方程给出:
在这里插入图片描述
其中λ是每个间隔的平均事件数
E=2.71828…(欧拉数)
k=0,1,2,…
k!=k×(k−1)×(k−2)×…×2×1是k的阶乘。
这个方程是泊松分布的概率质量(mass)函数(PMF),中文教材称之为分布列。

二项分布与泊松分布

泊松分布是从二项分布中推导出来的,更确切地说:参数为λ的泊松随机变量的分布列是二项随机变量分别列很好的逼近,当n很大,p很小时,二者接近,证明如下:
泊松分布_第1张图片

泊松分布的概率示例

例1:在一条特定的河流上,平均每100年发生一次洪水。假设泊松模型适用,计算100年间隔内k=0、1、2、3、4、5、6洪水的概率。
因为平均事件率为每100年一次洪水,λ=1
泊松分布_第2张图片
下表给出了100年内发生0至6次洪水的概率。
泊松分布_第3张图片
例2:乌加特和他的同事说,世界杯足球赛的平均进球数约为2.5个,泊松模型是合适的。 因为平均事件率是每场(match)比赛2.5个进球,λ=2.5。
泊松分布_第4张图片

违反泊松假设的例子

每分钟到达学生会的学生人数很可能不会遵循泊松分布,因为这一比率不是恒定的(上课时间的比率较低,上课时间之间的比率较高),而且个别学生的到达不是独立的(学生倾向于成群结队)。
如果一次大地震增加了发生类似震级余震的概率,那么加州每年5级地震的次数可能不会遵循泊松分布。
在医院重症监护病房住院的病人中,病人在ICU的天数不是Poisson分布的,因为天数不能为零。分布可以用零截尾泊松分布来建模。
对于具有零事件的区间数大于泊松模型预测值的计数分布,可以使用零膨胀模型进行建模。

你可能感兴趣的:(数学知识)