概率论 —— 泊松分布和指数分布

  • 参考:泊松分布是怎么来的?应该怎么用?

文章目录

  • 1. 泊松分布
    • 1.1 定义和性质
    • 1.2 理解泊松分布
      • 1.2.1 从二项分布角度理解
      • 1.2.2 直观理解
    • 1.3 分布律曲线
  • 2. 指数分布

1. 泊松分布

1.1 定义和性质

  • 泊松分布:设非负的离散随机变量 X X X 取值为 0,1,2,… 分布律为
    P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2... , λ > 0 P(X=k) = \frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2..., \quad \lambda>0 P(X=k)=k!λkeλ,k=0,1,2...,λ>0 则称 X X X 服从参数为 λ \lambda λ 的泊松分布,记做 X ∼ P ( λ ) X\sim P(\lambda) XP(λ)
  • 服从参数为 λ \lambda λ 的泊松分布的随机变量 X ∼ P ( λ ) X\sim P(\lambda) XP(λ) 的期望和方差为
    E ( X ) = λ D ( X ) = λ E(X) = \lambda\\ D(X) = \lambda E(X)=λD(X)=λ
    1. 期望证明如下
      E ( X ) = ∑ k = 0 ∞ k λ k k ! e − λ = ∑ k = 1 ∞ k λ k k ! e − λ = ∑ k = 1 ∞ λ k ( k − 1 ) ! e − λ = λ e − λ ∑ k = 1 ∞ λ k − 1 ( k − 1 ) ! = λ e − λ e λ = λ \begin{aligned} E(X) &= \sum_{k=0}^\infin k \frac{\lambda^k}{k!}e^{-\lambda} \\ &= \sum_{k=1}^\infin k \frac{\lambda^k}{k!}e^{-\lambda}\\ &= \sum_{k=1}^\infin \frac{\lambda^k}{(k-1)!}e^{-\lambda}\\ &= \lambda e^{-\lambda} \sum_{k=1}^\infin \frac{\lambda^{k-1}}{(k-1)!}\\ &= \lambda e^{-\lambda}e^\lambda \\ &=\lambda \end{aligned} E(X)=k=0kk!λkeλ=k=1kk!λkeλ=k=1(k1)!λkeλ=λeλk=1(k1)!λk1=λeλeλ=λ 其中倒数第三个等号用到泰勒展开 e x = 1 + x + x 2 2 ! + x 3 3 ! + … + x n n ! + … = ∑ k = 1 ∞ x k − 1 ( k − 1 ) ! e^x=1+x+\frac{x^2}{2 !}+\frac{x^3}{3 !}+\ldots+\frac{x^n}{n !}+\ldots=\sum_{k=1}^{\infty} \frac{x^{k-1}}{(k-1) !} ex=1+x+2!x2+3!x3++n!xn+=k=1(k1)!xk1
    2. 方差证明如下
      E ( X 2 ) = ∑ k = 0 ∞ k 2 λ k k ! e − λ = λ e − λ ∑ k = 1 ∞ k λ k − 1 ( k − 1 ) ! = λ e − λ ∑ k = 1 ∞ ( k − 1 + 1 ) λ k − 1 ( k − 1 ) ! = λ e − λ ( ∑ m = 0 ∞ m ⋅ λ m m ! + ∑ m = 0 ∞ λ m m ! ) ( 令 m = k − 1 ) = λ e − λ ( λ ∑ m = 1 ∞ λ m − 1 ( m − 1 ) ! + ∑ m = 0 ∞ λ m m ! ) = λ e − λ ( λ e λ + e λ ) = λ 2 + λ   D ( X ) = E ( X 2 ) − E ( X ) 2 = λ 2 + λ − λ 2 = λ   \begin{aligned} E(X^2) &= \sum_{k=0}^\infin k^2 \frac{\lambda^k}{k!}e^{-\lambda} \\ &= \lambda e^{-\lambda} \sum_{k=1}^\infin \frac{k\lambda^{k-1}}{(k-1)!} \\ &= \lambda e^{-\lambda} \sum_{k=1}^\infin \frac{(k-1+1)\lambda^{k-1}}{(k-1)!} \\ &= \lambda e^{-\lambda}\left(\sum_{m=0}^{\infty} \frac{m \cdot \lambda^m}{m !}+\sum_{m=0}^{\infty} \frac{\lambda^m}{m !}\right)\quad (令 m=k-1) \\ &= \lambda e^{-\lambda}\left(\lambda\sum_{m=1}^{\infty} \frac{\lambda^{m-1}}{(m-1) !}+\sum_{m=0}^{\infty} \frac{\lambda^m}{m !}\right) \\ &= \lambda e^{-\lambda} \left(\lambda e^{\lambda}+e^{\lambda}\right) \\ &= \lambda^2+\lambda \\ \space\\ D(X) &= E(X^2)-E(X)^2 \\ &= \lambda^2+\lambda -\lambda^2 \\ &=\lambda\ \end{aligned} E(X2) D(X)=k=0k2k!λkeλ=λeλk=1(k1)!kλk1=λeλk=1(k1)!(k1+1)λk1=λeλ(m=0m!mλm+m=0m!λm)(m=k1)=λeλ(λm=1(m1)!λm1+m=0m!λm)=λeλ(λeλ+eλ)=λ2+λ=E(X2)E(X)2=λ2+λλ2=λ 

1.2 理解泊松分布

1.2.1 从二项分布角度理解

  • 泊松分布可以理解为极限情况下的二项分布。伯努利实验中一个事件有 p p p 的概率发生, 1 − p 1-p 1p 的概率不发生(例如抛硬币),二项分布就是独立重复 n n n 次伯努利试验后事件发生次数的概率分布,其分布律为
    P ( X = k ) = C n k p k ( 1 − p ) k P(X=k) = C_n^k p^k(1-p)^k P(X=k)=Cnkpk(1p)k 考虑 n → ∞ ,   p → 0 n\to \infin, \space p\to 0 n, p0 的极端情况,并且要求二项分布期望 n p = λ np=\lambda np=λ 是一个常数(这意味着 n n n 无穷大的程度 p p p 无穷小的程度是同阶的),把 p = λ n p=\frac{\lambda}{n} p=nλ 带回到上述分布律并取 lim ⁡ n → ∞ \lim_{n\to\infin} limn,得到
    P ( X = k ) = lim ⁡ n → ∞ n ! k ! ( n − k ) ! λ k n k ( 1 − λ n ) n − k = lim ⁡ n → ∞ n ( n − 1 ) ( n − 2 ) . . . ( n − k + 1 ) k ! λ k n k ( 1 − λ n ) n − k = lim ⁡ n → ∞ n ( n − 1 ) ( n − 2 ) . . . ( n − k + 1 ) n k λ k k ! ( 1 − λ n ) n − k = lim ⁡ n → ∞ λ k k ! ( 1 − λ n ) n − k = λ k k ! lim ⁡ n → ∞ ( 1 − λ n ) n ( 1 − λ n ) − k = λ k k ! lim ⁡ n → ∞ ( 1 − λ n ) n = λ k k ! lim ⁡ n → ∞ [ ( 1 + 1 − n λ ) − n λ ] − λ = λ k k ! e − λ \begin{aligned} P(X=k) &= \lim_{n\to\infin} \frac{n!}{k!(n-k)!} \frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^{n-k} \\ &= \lim_{n\to\infin} \frac{n(n-1)(n-2)...(n-k+1)}{k!}\frac{\lambda^k}{n^k}(1-\frac{\lambda}{n})^{n-k} \\ &= \lim_{n\to\infin} \frac{n(n-1)(n-2)...(n-k+1)}{n^k}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^{n-k}\\ &= \lim_{n\to\infin}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^{n-k}\\ &= \frac{\lambda^k}{k!}\lim_{n\to\infin}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-k} \\ &= \frac{\lambda^k}{k!}\lim_{n\to\infin}(1-\frac{\lambda}{n})^n \\ &= \frac{\lambda^k}{k!}\lim_{n\to\infin} \Big[(1+\frac{1}{-\frac{n}{\lambda}})^{-\frac{n}{\lambda}}\Big]^{-\lambda} \\ &= \frac{\lambda^k}{k!}e^{-\lambda} \\ \end{aligned} P(X=k)=nlimk!(nk)!n!nkλk(1nλ)nk=nlimk!n(n1)(n2)...(nk+1)nkλk(1nλ)nk=nlimnkn(n1)(n2)...(nk+1)k!λk(1nλ)nk=nlimk!λk(1nλ)nk=k!λknlim(1nλ)n(1nλ)k=k!λknlim(1nλ)n=k!λknlim[(1+λn1)λn]λ=k!λkeλ 这样就推出了泊松分布的分布律

    注意上面最后一个等号使用了重要极限 lim ⁡ x → ∞ ( 1 + 1 x ) x = e \lim_{x\to \infin}(1+\frac{1}{x})^x = e limx(1+x1)x=e

1.2.2 直观理解

  • 直观上看,泊松分布描述指定时间长度时间内某事件发生次数的分布。举例来说,现在我们观察到 a a a 分钟内停车场进入了 b b b 辆车

    1. 把这 a a a 分钟均匀分成长 a n \frac{a}{n} na 分钟的 n n n 段,每一段时间都成为一个来车概率为 p p p 的独立伯努利实验
    2. n → ∞ n\to \infin n 时每个时间段长度 a n → 0 \frac{a}{n}\to 0 na0,于是每段内来车概率 p → 0 p\to 0 p0
    3. 根据观测结果,我们知道这 n n n 次伯努利实验满足 n p = b np=b np=b

    于是, a a a 分钟内停车场进入了 b b b 辆车” 这个观测,意味着 “停车场 a a a 分钟内来车次数” 服从参数为 λ = b \lambda=b λ=b 的泊松分布
    P ( X = k ) = 3 k k ! e − 3 P(X=k) = \frac{3^k}{k!}e^{-3} P(X=k)=k!3ke3 这里的核心思想就是把 “一次一段时间的观测结果” 看做 “无穷多次无穷短时间独立伯努利实验的宏观观测结果”

  • 上面是从一次单独的观测中导出泊松分布,只能考察固定时间长度内事件发生次数的分布规律;如果我们宏观上知道事件发生的频率,则能同时考察任意时间长度内事件发生次数的分布规律,这相当于大量宏观观测导出大量泊松分布的平均。设停车场来车的频率为 m m m,长度为 t t t 的时间内来车数量的期望就是 m t mt mt,这时泊松分布也可以表示为
    P ( N ( t ) = k ) = ( m t ) k k ! e − m t P(N(t)=k) = \frac{(mt)^k}{k!}e^{-mt} P(N(t)=k)=k!(mt)kemt 这里 N ( t ) N(t) N(t) 表示某种关于时间的函数关系,比如

    1. 某停车场平均每分钟来车数量
    2. 某医院平均每小时出生婴儿数量
    3. 某公司平均每10分钟接到电话数量

1.3 分布律曲线

  • 如下绘制泊松分布曲线
    from scipy import stats
    import numpy as np
    import matplotlib.pyplot as plt
    
    poisson1 = stats.poisson.pmf(np.arange(50), 1)
    poisson2 = stats.poisson.pmf(np.arange(50), 2)
    poisson5 = stats.poisson.pmf(np.arange(50), 5)
    poisson10 = stats.poisson.pmf(np.arange(50), 10)
    poisson25 = stats.poisson.pmf(np.arange(50), 25)
    poisson40 = stats.poisson.pmf(np.arange(50), 40)
    
    
    x = np.arange(50)
    plt.plot(x, poisson1, label="λ=1")
    plt.plot(x, poisson2, label="λ=2")
    plt.plot(x, poisson5, label="λ=5")
    plt.plot(x, poisson10, label="λ=10")
    plt.plot(x, poisson25, label="λ=25")
    plt.plot(x, poisson40, label="λ=40")
    
    plt.legend()
    
    概率论 —— 泊松分布和指数分布_第1张图片
    可见泊松分布是非对称的, λ \lambda λ 值越小越偏倚,随着 λ \lambda λ 增大迅速接近正态分布
    1. λ \lambda λ 越小,意味着事件发生次数的期望越小(从二项分布角度考虑),考虑极限情况事件几乎不可能发生,那么事件多次发生就更加不可能,概率全部分配到发生次数 k k k 较小的情况,呈现非对称分布
    2. λ \lambda λ 增大时,意味着事件发生次数的期望较大(从二项分布角度考虑),这时期望次数附近,事件发生次数多一次少一次相对而言变化程度就不大(原先是1,加上1翻倍了;原先是10,加上1就变了一点),这样就会呈现近似正态分布

2. 指数分布

  • 指数分布是事件发生间隔的概率分布,下面这些都属于指数分布:
    1. 某停车场来车的时间间隔
    2. 某医院出生婴儿的时间间隔
    3. 某公司接到电话数量的时间间隔
  • 指数分布的公式可以从泊松分布推断出来:下一次事件发生间隔时间 t t t 等价于 t t t 时间内事件一次也没发生,于是
    P ( X > t ) = P ( N ( t ) = 0 ) = ( m t ) 0 0 ! e − m t = e − λ t P(X>t) = P(N(t)=0) = \frac{(mt)^0}{0!}e^{-mt} = e^{-\lambda t} P(X>t)=P(N(t)=0)=0!(mt)0emt=eλt 指数分布的图像通常如下
    概率论 —— 泊松分布和指数分布_第2张图片

你可能感兴趣的:(#,概率论与数理统计,泊松分布,指数分布)