统计学(1)二项分布 几何分布 泊松分布 指数分布 正态分布 gamma分布 beta分布

分布与分布关系

    • 1、二项分布
    • 2、几何分布
    • 3、泊松分布
    • 4、二项分布转化泊松分布,泊松转化正态分布
    • 5、指数分布
    • 6、gamma分布
    • 7、泊松、指数、gamma三者关系
    • 8、Beta分布

1、二项分布

  n次独立重复试验,每次事件出现的结果只有两个,出现同一结果的概率相同为p;
  抛硬币,假设硬币不平整,抛出正面的概率为p,那么在n次抛硬币的实验中,出现k次正面的概率:
P = C n k × p k × ( 1 − p ) n − k P=C_{n}^{k} \times p^{k} \times(1-p)^{n-k} P=Cnk×pk×(1p)nk
  期望 : E ( x ) = n p E(x)=n p E(x)=np ; 方差: D ( x ) = n p ( 1 − p ) D(x) = np(1-p) D(x)=np(1p)

2、几何分布

  与二项分布关心的“n次实验k次成功的概率”不同,几何分布关心的是,事件发生(或者实验)n次中,在第x次取得成功的概率。其发生的概率P为:
P = ( 1 − p ) x − 1 × p P=(1-p)^{x-1} \times p P=(1p)x1×p
  期望 : E ( x ) = 1 p E(x)=\frac{1}{p} E(x)=p1; 方差: Var ⁡ ( x ) = 1 − p p 2 \operatorname{Var}(x)=\frac{1-p}{p^{2}} Var(x)=p21p

3、泊松分布

  日常生活中,大量事件是有固定频率的。

  • 某医院平均每小时出生3个婴儿
  • 某公司平均每10分钟接到1个电话
  • 某超市平均每天销售4包xx牌奶粉
  • 某网站平均每分钟有2次访问

  它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间
   泊松分布的数据或者事件特征:

  • 事件发生的次数与时间起点无关,只与时间长短有关。
  • 任何两个不重叠的时间区间,各自区间内事件发生的次数是相互独立的。
  • 在非常短的时间内,事件连续发生两次的概率接近零,不连续。

  已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生。这是我们没法知道的。

  泊松分布就是描述某段时间内,事件具体的发生概率。
P ( N ( t ) = n ) = ( λ t ) n e − λ t n ! P(N(t)=n)=\frac{(\lambda t)^{n} e^{-\lambda t}}{n !} P(N(t)=n)=n!(λt)neλt
  上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。等号的右边,λ 表示事件的频率。

  接下来两个小时,一个婴儿都不出生的概率是0.25%,基本不可能发生。
P ( N ( 2 ) = 0 ) = ( 3 × 2 ) 0 e − 3 × 2 0 ! ≈ 0.0025 P(N(2)=0)=\frac{(3 \times 2)^{0} e^{-3 \times 2}}{0 !} \approx 0.0025 P(N(2)=0)=0!(3×2)0e3×20.0025

  泊松过程的强度lambda (常数)等于单位长时间间隔内出现的质点数目的期望值。即对泊松分布有:E(X) = D(X) = λ
  泊松分布的特征

  1、Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数。要观察到这类事件,样本含量n必须很大。

  2、λ是泊松分布所依赖的唯一参数。λ值愈小,分布愈偏倚,随着λ的增大,分布趋于对称。

  3、当λ = 20时,分布泊松接近于正态分布;当λ = 50时,可以认为泊松分布呈正态分布。在实际工作中,当λ>=20 时就可以用正态分布来近似地处理泊松分布的问题

4、二项分布转化泊松分布,泊松转化正态分布

   lim ⁡ n → α , p → 0 C n k p k ( 1 − p ) n − k = lim ⁡ n → α , p → 0 n ( n − 1 ) ⋯ ( n 1 − k ) k ! p k ( 1 − p ) n − k \lim _{n \rightarrow \alpha, p \rightarrow 0} C_{n}^{k} p^{k}(1-p)^{n-k}=\lim _{n \rightarrow \alpha ,p \rightarrow 0} \frac{n(n-1) \cdots(n 1-k)}{k !} p^{k}(1-p)^{n-k} limnα,p0Cnkpk(1p)nk=limnα,p0k!n(n1)(n1k)pk(1p)nk

                 = lim ⁡ n → ∞ p → 0 n k k ! p k ( 1 − p ) λ p − k =\lim _{n \rightarrow \infty p \rightarrow 0} \frac{n^{k}}{k !} p^{k}(1-p)^{\frac{\lambda}{p}-k} =limnp0k!nkpk(1p)pλk

                 = lim ⁡ n → ∞ λ k k ! [ ( 1 − p ) 1 − p ] − λ 1 ( 1 − p ) k =\lim _{n \rightarrow \infty} \frac{\lambda^{k}}{k !}\left[(1-p)^{\frac{1}{-p}}\right]^{-\lambda} \frac{1}{(1-p)^{k}} =limnk!λk[(1p)p1]λ(1p)k1

                 = lim ⁡ n → ∞ p → 0 λ k k ! e − λ =\lim _{n \rightarrow \infty p \rightarrow 0} \frac{\lambda^{k}}{k !} e^{-\lambda} =limnp0k!λkeλ

   n>=20,p<0.05 用泊松分布逼近二项分布的效果最好。当n>=100,np<=10 逼近效果最佳。

  当 λ>=20 时就可以用正态分布来近似地处理泊松分布的问题。

   正态分布是所有分布趋于极限大样本的分布,属于连续分布.
   二项分布与泊松分布则都是离散分布,二项分布的极限分布是泊松分布、泊松分布的极限分布是正态分布。

5、指数分布

   指数分布是事件的时间间隔的概率。下面这些都属于指数分布。

  • 婴儿出生的时间间隔
  • 来电的时间间隔
  • 奶粉销售的时间间隔
  • 网站访问的时间间隔

   指数分布的公式可以从泊松分布推断出来。如果下一个婴儿间隔时间 t ,就等同于 t 之内没有任何婴儿出生。
P ( X > t ) = P ( N ( t ) = 0 ) = ( λ t ) 0 e − λ t 0 ! = e − λ t \begin{aligned} P(X>t) &=P(N(t)=0)=\frac{(\lambda t)^{0} e^{-\lambda t}}{0 !} \\ &=e^{-\lambda t} \end{aligned} P(X>t)=P(N(t)=0)=0!(λt)0eλt=eλt

  反过来,事件在时间 t 之内发生的概率(至少出生一个的概率),就是1减去上面的值。

P ( X ≤ t ) = 1 − P ( X > t ) = 1 − e − λ t P(X \leq t)=1-P(X>t)=1-e^{-\lambda t} P(Xt)=1P(X>t)=1eλt
  接下来15分钟,会有婴儿出生的概率是52.76%。

P ( X ≤ 0.25 ) = 1 − e − 3 × 0.25 ≈ 0.5276 \begin{aligned} P(X \leq 0.25) &=1-e^{-3 \times 0.25} \\ & \approx 0.5276 \end{aligned} P(X0.25)=1e3×0.250.5276

  接下来的15分钟到30分钟,会有婴儿出生的概率是24.92%。

P ( 0.25 ≤ X ≤ 0.5 ) = P ( X ≤ 0.5 ) − P ( X ≤ 0.25 ) = ( 1 − e − 3 × 0.5 ) − ( 1 − e − 3 × 0.25 ) = e − 0.75 − e − 1.5 ≈ 0.2492 \begin{aligned} P(0.25 \leq X \leq 0.5) &=P(X \leq 0.5)-P(X \leq 0.25) \\ &=\left(1-e^{-3 \times 0.5}\right)-\left(1-e^{-3 \times 0.25}\right) \\ &=e^{-0.75}-e^{-1.5} \\ & \approx 0.2492 \end{aligned} P(0.25X0.5)=P(X0.5)P(X0.25)=(1e3×0.5)(1e3×0.25)=e0.75e1.50.2492
  随着间隔时间变长,事件的发生概率急剧下降,呈指数式衰减。想一想,如果每小时平均出生3个婴儿,上面已经算过了,下一个婴儿间隔2小时才出生的概率是0.25%,那么间隔3小时、间隔4小时的概率,是不是更接近于0?

f ( x ) = { λ e − λ x x ≥ 0 0 , x < 0 f(x)=\left\{\begin{array}{ll}{\lambda e^{-\lambda x}} & {x \geq 0} \\ {0,} & {x<0}\end{array}\right. f(x)={λeλx0,x0x<0

指数分布具有以下特征:

(1)随机变量X的取值范围是从0到无穷;

(2)极大值在x=0处,即f(x)=λ;

(3)函数为右偏,且随着x的增大,曲线稳步递减;

(4)随机变量的期望值和方差为µ=1/λ,σ2=1/λ2。

6、gamma分布

   伽马分布:伽玛分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”
公式:
f ( x ; α , λ ) = { λ α Γ ( α ) x − 1 e − λ x , x > 0 0 , x ⩽ 0 f(x ; \alpha, \lambda)=\left\{\begin{array}{ll}{\frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{-1} \mathrm{e}^{-\lambda x},} & {x>0} \\ {0,} & {x \leqslant 0}\end{array}\right. f(x;α,λ)={Γ(α)λαx1eλx,0,x>0x0
E X = α λ , Var ⁡ ( X ) = α λ 2 E X=\frac{\alpha}{\lambda}, \quad \operatorname{Var}(X)=\frac{\alpha}{\lambda^{2}} EX=λα,Var(X)=λ2α

Γ ( α ) = ∫ 0 ∞ x a − 1 e − x d x \Gamma(\alpha)=\int_{0}^{\infty} x^{a-1} \mathrm{e}^{-x} \mathrm{d} x Γ(α)=0xa1exdx

Γ ( α + 1 ) = a Γ ( α ) , Γ ( 2 ) = Γ ( 1 ) = 1 , Γ ( n + 1 ) = n ! Γ ( 1 2 ) = π , B ( a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) \begin{array}{l}{\Gamma(\alpha+1)=a \Gamma(\alpha), \quad \Gamma(2)=\Gamma(1)=1, \quad \Gamma(n+1)=n !} \\&\\ {\Gamma\left(\frac{1}{2}\right)=\sqrt{\pi}, \quad \mathrm{B}(a, b)=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)}}\end{array} Γ(α+1)=aΓ(α),Γ(2)=Γ(1)=1,Γ(n+1)=n!Γ(21)=π ,B(a,b)=Γ(a+b)Γ(a)Γ(b)

7、泊松、指数、gamma三者关系

   这三个东西就是好基友,用来描述泊松过程的,假设你开了一家店每小时有λ(假设等于4个)个客人光顾并服从泊松分布,那么从0个客人到第1个客人经过的时间服从指数分布,同样的第1个到第2个,第2到第3个。。。。之间的时间间隔都服从指数分布而且指数分布的参数是(1/λ),然后指数分布是上一个客人到下一个客人的时间间隔,gamma分布就是把这些时间间隔加起来,如果你gamma分布的n=2,就是从0个客人到第2个客人(中间有两个时间间隔Y2=X1+X2)的时间服从Gamma(2,λ),同理n=1,2,3,4,…N,就是gamma分布描述的是当这家店有n个客人到达所需要的时间。这三个好基友就是用来这样描述泊松过程的。

   泊松分布又决定了指数分布发生的频率,泊松就是一个计数器,从随机过程的定义来说泊松的本质是一个计数过程,只不过所计数的随机变量服从指数分布罢了,如果问为什么要选择指数分布,那就是因为指数分布是唯一的无记忆的连续分布,而gamma则勉强可以说是指数分布的抽样分布吧,但实际指数分布是gamma分布的一个特殊形式。

8、Beta分布

   Beta分布是一个定义在[0,1]区间上的连续概率分布族,它有两个正值参数,称为形状参数,一般用α和β表示。在贝叶斯推断中,Beta分布是Bernoulli、二项分布、负二项分布和几何分布的共轭先验分布。Beta分布的概率密度函数形式如下:
f ( x ; α , β ) =  constant  ⋅ x α − 1 ( 1 − x ) β − 1 = x α − 1 ( 1 − x ) β − 1 ∫ 0 1 u α − 1 ( 1 − u ) β − 1 d u = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 \begin{aligned} f(x ; \alpha, \beta)=& \text { constant } \cdot x^{\alpha-1}(1-x)^{\beta-1} \\=& \frac{x^{\alpha-1}(1-x)^{\beta-1}}{\int_{0}^{1} u^{\alpha-1}(1-u)^{\beta-1} d u} \\ &=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha) \Gamma(\beta)} x^{\alpha-1}(1-x)^{\beta-1} \\ &=\frac{1}{\mathrm{B}(\alpha, \beta)} x^{\alpha-1}(1-x)^{\beta-1} \end{aligned} f(x;α,β)== constant xα1(1x)β101uα1(1u)β1duxα1(1x)β1=Γ(α)Γ(β)Γ(α+β)xα1(1x)β1=B(α,β)1xα1(1x)β1

这里的Γ表示gamma函数。
Beta分布的均值是:
α α + β \frac{\alpha}{\alpha+\beta} α+βα

方差是: α β ( α + β ) 2 ( α + β + 1 ) \frac{\alpha \beta}{(\alpha+\beta)^{2}(\alpha+\beta+1)} (α+β)2(α+β+1)αβ

假设亚马逊上有三家旧货商,其评价结果分别如下:

商家一:85193个评论,94%的正向
商家二:20785个评论,98%的正向
商家三:840个评论,99%的正向

   那么这三个商家中,哪一家的服务质量最好呢?假设这三家的服务质量分别是 θ X 、 θ Y 和 θ Z θ_X、θ_Y和θ_Z θXθYθZ。假设我们对三家旧货商的信息一无所知,那么这些参数的先验可以认为是一个均匀分布,也可以等同于beta(1,1)。根据之前的知识,我们知道,最终这三家旧货商的服务质量应当服从三个不同参数的Beta分布,即 b e t a ( 80082 , 5113 ) 、 b e t a ( 20370 , 417 ) 和 b e t a ( 833 , 9 ) beta(80082,5113)、beta(20370,417)和beta(833,9) beta(80082,5113)beta(20370,417)beta(833,9)(把正向的和负向的评论书算出来,分别加1就是参数了,参考上面公式)。注意,当Beta分布的参数很大的时候,我们可以使用相同均值和方差的正态分布代替这个beta分布。因此,最终这三家供货商,商家3的服务质量的标准差是0.003,是最大的。其他两家的标准差比这个还小。因此,我们可以认为这三家供货商的服务质量都高度聚焦于他们的均值。因此,从第一个或第二个分布中抽取的样本不太可能比第三个样本的值高。也就是说前两个服务商不太可能质量比第三个高。

参考:
[https://www.cnblogs.com/think-and-do/p/6483335.html]
[https://blog.csdn.net/df19900725/article/details/78036795 ]

你可能感兴趣的:(统计学)