从条件概率到贝叶斯公式

    在实际生活中,有时需要考虑在已知一个事件发生的条件下,另外一个事件发生的概率,这个概率即条件概率。本文将从条件概率出发,引出概率论与数理统计中非常重要的两个公式:全概率公式和贝叶斯公式。

首先,我们来看下什么是条件概率?

定义:设A、B是两个事件,且P(B)>0,则称比值则称比值\small \frac{P(AB)}{P(B)}为在事件B已经发生的条件下,事件A发生的条件概率,记作P(A|B),即

P(A|B)=\frac{P(AB)}{P(B)}

如何理解这个条件概率的公式呢?

我们以古典概型(等可能概型)来理解上式。假设试验的基本事件总数为n,B所包含的基本事件数为m(M>0),AB所包含的基本事件数为k。因为事件B已经发生了,故而在考虑事件A发生的概率时,所有可能的结果一般不再是整个样本空间S,而是B中的结果,也就是说导致A发生的结果一定来源于B,根据古典概型中事件概率的计算可得:

P(A|B)=\frac{k}{m}=\frac{k/n}{m/n}=\frac{P(AB)}{P(B)}

从集合的角度,画个图可能更方便理解:

从条件概率到贝叶斯公式_第1张图片

举个条件概率的栗子:

一个袋子中有3个黑球和7个白球,依次从袋子中不放回的取球两次,每次取一个球,现求:

(1) 已知第一次取出的是黑球,则第二次取出的也是黑球的概率;

(2)已知第二次取出的是回去,则第一次取出的也是黑球的概率。

设事件\large _{A_{i}}表示第i次取到黑球,i=1,2,则:

\large P(A_{1})=\frac{3}{10}

\large P(A_{2})=\frac{7}{10}* \frac{3}{9}+\frac{3}{10}*\frac{2}{9}=\frac{3}{10}

\large P(A_{1}A_{2})=\frac{3*2}{10*9}=\frac{1}{15}

故:

\large P(A_{2}|A_{1})=\frac{P(A_{1}A_{2})}{P(A_{1})}=\frac{1}{15}\div \frac{3}{10}=\frac{2}{9}

\large P(A_{1}|A_{2})=\frac{P(A_{1}A_{2})}{P(A_2)}=\frac{1}{15}\div \frac{3}{10}=\frac{2}{9}

上面的例子中,\large P(A_{1})=P(A_{2})似乎表明对于不放回抽样,抽到黑球的概率与抽球的次序无关,每次抽到和黑球的概率相等。实际上,这种感觉是对的。生活中也有这样的例子,比如买彩票,在开奖前10天,你每天都去彩票站买一张号码不同的彩票,这10张彩票中奖的概率理论上是相同的。感兴趣的同学可以思考下这其中的原因。

接下来要说的是乘法公式和乘法定理,前文中我们已经得到了条件概率的公式:

P(B)>0时,P(A|B)=\frac{P(AB)}{P(B)}

P(A)>0时,P(B|A)=\frac{P(AB)}{P(A)}

把条件概率的公式变一下,我们就得到了乘法公式:

\large P(AB)=P(B)*P(A|B)

\large P(AB)=P(A)*P(B|A)

乘法定理即乘法公式的扩展:

\large P(A_{1}A_{2}\cdots A_{n})=P(A_{1})*P(A_{2}|A_{1})*P(A_{3}|A_{1}A_{2})*\cdots P(A_{n}|A_{1}A_{2}\cdots A_{n-1})

最后要介绍的就是全概率公式和贝叶斯公式:

全概率公式

定义:设S为试验E的样本空间,\large B_{1},B_{2}\cdots为E的一组事件,若

\large (1) \bigcup_{i=1}^{\infty }B_{i}=S;

\large (2) B_{i}B_{j}=\varnothing ,i\neq j; i,j=1,2,\cdots ,

则称\large B_{1},B_{2}\cdots为样本空间S的一个划分或者分割。

全概率公式:设\large B_{1},B_{2}\cdots为样本空间S的一个划分,且\large P(B_{i})>0,i=1,2\cdots,则对任何事件A有

\large P(A)=\sum_{i=1}^{\infty }P(B_{i})*P(A|B_{i})

全概率公式的证明:

\large A\subseteq S,则:

从条件概率到贝叶斯公式_第2张图片

类似地,我们也可以从集合的角度理解全概率公式,下图即全概率公式的图解:

从条件概率到贝叶斯公式_第3张图片

举个全概率公式的栗子:

某工厂有四条流水线生产同一产品,四条流水线的产量分别占总产量的15%,20%,30%,35%,又知这四条流水线的不合格品率依次为0.05,0.04,0.03,0.02。现从出厂产品中任取一件,求恰好取到不合格品的概率。

设以A表示事件任取一件,恰好取到不合格品,\large B_{i}表示任取一件取到第i条流水线的产品,i=1,2,3,4,则\large B_{1},B_{2},B_{3},B_{4}构成样本空间的一个划分,且:

\large P(B_{1})=0.15,P(B_{2})=0.20,P(B_{3})=0.30,P(B_{4})=0.35;

\large P(A|B_{1})=0.05,P(A|B_{2})=0.04;

\large P(A|B_{3})=0.03,P(A|B_{4})=0.02.

由全概率公式可得:

\large P(A)=\sum_{i=1}^{\infty}P(B_{i})P(A|B_{i})=0.15*0.05+0.20*0.04+0.30*0.03+0.35*0.02=0.0315

因此,从出厂产品中任取一件,恰好取到不合格品的概率是3.15%。

贝叶斯公式

在上述例子中,若该厂规定,出了不合格品要追究有关流水线的经济责任。现从出厂产品中任取一件,结果为不合格品,单该产品是那一条流水线生产的标志已经脱落,问该产品来自四条流水线其中某一条流水线的概率分别是多少?

上述问题实际上就是求在已经知道取到不合格品的条件下,该产品来自四条流水线其中某一条流水线的条件概率,则

\large P(B_{1}|A)=\frac{P(AB_{1})}{A}=\frac{P(B_{1})*P(A|B_{1})}{\sum_{i=1}^{4}P(B_{i})P(A|B_{i})}=\frac{0.15*0.05}{0.0315}=0.2381

同理,可求得  \large P(B_{2}|A),P(B_{3}|A),P(B_{4}|A).

至此,我们引入了一个极为有用的公式,即如下的贝叶斯公式:

\large B_{1},B_{2}\cdots为样本空间S的一个划分,且 \large P(B_{i})>0,i=1,2,\cdots,则对任何事件A,若 \large P(A)>0,

\large P(B_{i}|A)=\frac{P(B_{i})P(A|B_{i})}{\sum_{j=1}^{\infty}P(B_{j})P(B_{j}|A)},此式即贝叶斯公式。

贝叶斯公式本质上就是条件概率公式,只不过是用乘法公式展开了条件概率公式中的分子,用全概率公式展开了条件概率公式中的分母。

 

PS:本文内容主要参考由高等教育出版社出版,严继高老师主编的《概率论与数理统计》一书

你可能感兴趣的:(数学)