常见的离散型和连续型随机变量的概率分布

目录

 

1 基本概念

2 离散型随机变量的概率分布

2.1 二项分布

2.2 超几何分布 

2.2.1 概念

2.2.2 举例

2.3 泊松分布 

3 连续型随机变量的概率分布

3.1 均匀分布 

3.1.1 概念

3.2 正态分布

3.2.1 概念

3.3  指数分布 

3.3.1 概念

3.3.2 举例

4 参考文献


1 基本概念

在之前的博文中,已经明白了概率分布函数和概率密度函数。下面来讲解一下常见的离散型和连续型随机变量概率分布。

在此之前,介绍几个基本概念:

  • 均值(期望值expected value):\mu=E(x)=\sum xp(x)
  • 方差(variance): \sigma^2=E[(x-\mu)^2]=\sum (x-\mu)^2p(x)
  • 标准差(standard deviation):\sigma =\sqrt {\sigma^2}

其中,可以证明E[(x-\mu^2)]=E(x^2)-\mu^2

2 离散型随机变量的概率分布

2.1 二项分布

如果进行n次不同的实验,每次试验完全相同并且只有两种可能的结果,这样的实验结果分布情况就是二项分布。最简单的比如投掷一枚硬币,不管进行多少次实验,实验结果都只有正面朝上或者反面朝上,这就是一个简单的二项分布。 

二项分布概率分布:

p(x)=C_{n}^{x} p^xq^{n-x} \space (x=0,1,2,3···,n)

其中:n代表n次实验,x表示实验结果为T的次数,q是实验结果为T的概率,q=1-p,表示实验结果为F的概率。

二项分布的 
均值:\mu=np
方差:\sigma^2=npq
标准差:\sigma=\sqrt {npq}
二项分布对于结果只有两种情况的随机事件有非常好的描述,属于日常生活中最常见、最简单的随机变量概率分布,在知道某种实验结果概率的情况下,能够很好推断实验次数后发生其中某一结果次数的概率。

2.2 超几何分布 

2.2.1 概念

超几何分布和二项分布比较相似,二项分布每次实验完全一样,而超几何分布前一次的实验结果会影响后面的实验结果。简单地讲,二项分布抽取之后放回元素,而超几何分布是无放回的抽取。 
超几何分布的概率分布,均值和方差

p(x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}

\mu=\frac{nr}{N}

\sigma^2=\frac{r(N-r)n(N-n)}{N^2(N-1)}

2.2.2 举例

在一个口袋中装有30个球,其中有10个红球,其余为白球,这些球除颜色外完全相同。游戏者一次从中摸出5个球。摸到至少4个红球就中一等奖,那么获一等奖的概率是多少?

解:由题意可见此问题归结为超几何分布模型。

其中N = 30. r = 10. n = 5.

P(一等奖)= P(X=4)+ P(X=5)

由公式

 p(X=x)=\frac{C_{r}^{x}C_{N-r}^{n-x}}{C_{N}^{n}}

,x=0,1,2,...得:

P(一等奖) = 106/3393

2.3 泊松分布 

2.3.1 概念

泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。

泊松分布的概率分布,均值和方差: 

p(x)=\frac{\lambda^xe^{-\lambda}}{x!}\space (x=0,1,2,···)

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。

\mu=\lambda

\sigma^2=\lambda

2.3.2 举例

采用0.05J/㎡紫外线照射大肠杆菌时,每个基因组平均产生3个嘧啶二体。实际上每个基因组二体的分布是服从泊松分布的,将取如下形式:

……

3 连续型随机变量的概率分布

3.1 均匀分布 

3.1.1 概念

均匀概率分布(uniform probability distribution)是指连续随机变量所有可能出现值出现概率都相同。 
均匀分布 
均匀分布的概率分布,均值,方差和标准差: 

f(x)=\frac{1}{b-a}(a\leq x\leq b)

均值:\mu=\frac{a+b}{2}

方差:\sigma=\frac{(b-a)^2}{12}
标准差:\sigma=\frac{b-a}{\sqrt {12}}

如何求解均值和标准差:

3.2 正态分布

3.2.1 概念

正态分布是统计学中常见的一种分布,表现为两边对称,是一种钟型的概率分布(bell curve),其概率密度图为:

æ­£æåå¸

概率密度函数为:

其中,\mu是正态随机变量的均值; \sigma是标准差; \pi是圆周率,约等于3.1416··· ;e=2.71828⋅⋅⋅

特别的,当\mu=0\sigma=1的正态分布,被称为标准正态分布(standard distribution),此时有:

正态分布转化为标准正态分布: 
正态分布x,均值是μ,标准差是σ,z定义为z=\frac{x-\mu }{\sigma}

正态分布来近似二项分布 :
当n足够大的时候,正态分布对于离散型二项分布能够很好地近似。 
二项分布

评价正态分布 :
如何来确定数据是否正态分布,主要有以下几种方法: 
1. 图形感受法:建立直方图或者枝干图,看图像的形状是否类似正态曲线,既土墩形或者钟形,并且两端对称。 
2. 计算区间\bar x\pm s,\bar x\pm 2s,\bar x\pm 3s,看落在区间的百分比是否近似于68%,95%,100%。(切比雪夫法则和经验法则) 
3. 求IQR和标准差s,计算IQR/s,如若是正态分布,则IQR/s≈1.3.
4. 建立正态概率图,如果近似正态分布,点会落在一条直线上。 

æ­£ææ¦çå¾

3.3  指数分布 

3.3.1 概念

指数分布是描述泊松分布中事件发生时间间隔的概率分布。除了用于泊松过程的分析,还有许多其他应用,如以下场景:

  • 世界杯比赛中进球之间的时间间隔
  • 超市客户中心接到顾客来电之间的时间间隔
  • 流星雨发生的时间间隔
  • 机器发生故障之间的时间间隔
  • 癌症病人从确诊到死亡的时间间隔

指数分布有如下的适用条件: 
1. x是两个事件发生之间的时间间隔,并且x>0; 
2. 事件之间是相互独立的; 
3. 事件发生的频率是稳定的; 
4. 两个事件不能发生在同一瞬间。

这几个条件实质上也是使用泊松分布的前提条件。如果满足上述条件,则x是一个指数随机变量,x的分布是一个指数分布。如果不满足上述条件,那么需要使用Weibull分布或者gamma分布。

指数分布只有一个参数,“λ”,λ是事件发生的频率,在不同的应用场景中可能有不同名称:

  • 事件频率
  • 到达频率
  • 死亡率
  • 故障率
  • 转变率
  • …………

λ是单元时间内事件发生的次数,这里需要注意的是,单元时间可以是秒,分,小时等不同的单位,同时λ根据单元时间度量的不同,其数值也不一样。如单元时间为1小时,λ为6,则单元时间1分钟,λ为6/60=0.1

指数分布的概率密度函数(probability density func,PDF)由λ和x(时间)构成:

f(x)=\lambda e^{-\lambda x}

均值:\mu=\frac{1}{\lambda}

方差:\sigma^2=\frac{1}{\lambda}

3.3.2 举例

一个设备出现多次故障的时间间隔记录如下:

23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95

根据上面数据,我们可以计算得到该设备发生故障的平均时间是59.6小时,即单位小时时间内发生故障事件的次数为λ=1/59.6=0.0168。 
那么该设备在3天(72小时)内出现故障的概率是多大呢?即求P(x<72),这就需要计算指数分布的累积分布函数: 

P(X<72)=\int_{0}^{72}\lambda e^{-\lambda x}dx=1-e^{-\lambda(72)}=1-e^{-0.0168*72}=0.7017
也即该设备3天内出现故障的概率大于70%。


4 参考文献

【1】统计学:离散型和连续型随机变量的概率分布

【2】指数分布

 

你可能感兴趣的:(概率论与数理统计)