所谓条件概率,是指在某事件B发生的条件下,另一事件A发生的概率,记为 P ( A ∣ B ) {\rm{P(A|B)}} P(A∣B),它与 P ( A ) {\rm{P(A)}} P(A)是不同的两类概率。设 A A A与 B B B是样本空间 Ω \Omega Ω中的两事件,若 P ( B ) > 0 {\rm{P(B)}}\gt 0 P(B)>0,则称
P ( A ∣ B ) = P ( A B ) P ( B ) {\rm{P(A|B) = }}{{{\rm{P(AB)}}} \over {{\rm{P(B)}}}} P(A∣B)=P(B)P(AB)
为“在B发生下A的条件概率”,简称条件概率。
性质1:条件概率是概率,即若设 P ( B ) > 0 {\rm{P(B)}}\gt 0 P(B)>0,则
(1) P ( A ∣ B ) ⩾ 0 , A ∈ F {\rm{P(A|B)\geqslant0}},A \in \mathcal{F} P(A∣B)⩾0,A∈F
(2) P ( Ω ∣ B ) = 1 {\rm{P(}}\Omega {\rm{|B) = 1}} P(Ω∣B)=1
(3)若 F \mathcal{F} F中的 A 1 , A 2 , . . . , A n , . . {A_1},{A_2},...,{A_n},.. A1,A2,...,An,..,互不相容,则
P ( ⋃ n = 1 ∞ A n ∣ B ) = ∑ n = 1 ∞ P ( A n ∣ B ) P(\bigcup\limits_{n = 1}^\infty {{A_n}|B} ) = \sum\limits_{n = 1}^\infty {P({A_n}|B)} P(n=1⋃∞An∣B)=n=1∑∞P(An∣B)
性质2:乘法公式
(1)若 P ( B ) > 0 {\rm{P(B)}}\gt 0 P(B)>0,则 P ( A B ) = P ( B ) P ( A ∣ B ) P(AB) = P(B)P(A|B) P(AB)=P(B)P(A∣B)
(2)若 P ( A 1 A 2 . . . A n − 1 ) > 0 {\rm{P}}({A_1}{A_2}...{A_{n - 1}}){\rm{\gt}}0 P(A1A2...An−1)>0,则
P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ A 1 A 2 . . . A n − 1 ) {\rm{P}}({A_1}{A_2}...{A_n}) = P({A_1})P({A_2}|{A_1})P({A_3}|{A_1}{A_2})...P({A_n}|{A_1}{A_2}...{A_{n - 1}}) P(A1A2...An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2...An−1)
例:罐子模型(波利亚模型)
设罐中有 b b b个黑球、 r r r个红球,每次随机取出一个球,取出后将原球放回,还加进 c c c个同色球和 d d d个异色球。记 B i B_i Bi为“第 i i i次取出的是黑球”, R j R_j Rj为“第 j j j次取出的是红球”。
若连续从罐中取出三个球,其中有两个红球、一个黑球。则由乘法公式可得
P ( B 1 R 2 R 3 ) = P ( B 1 ) P ( R 2 ∣ B 1 ) P ( R 3 ∣ B 1 R 2 ) = b b + r ⋅ r + d b + r + c + d ⋅ r + d + c b + r + 2 c + 2 d \begin{aligned} P({B_1}{R_2}{R_3}) &= P({B_1})P({R_2}|{B_1})P({R_3}|{B_1}{R_2}) \\ &= {b \over {b + r}} \cdot {{r + d} \over {b + r + c + d}} \cdot {{r + d + c} \over {b + r + 2c + 2d}}\\ \end{aligned} P(B1R2R3)=P(B1)P(R2∣B1)P(R3∣B1R2)=b+rb⋅b+r+c+dr+d⋅b+r+2c+2dr+d+c
P ( R 1 B 2 R 3 ) = P ( R 1 ) P ( B 2 ∣ R 1 ) P ( R 3 ∣ R 1 B 2 ) = r b + r ⋅ b + d b + r + c + d ⋅ r + d + c b + r + 2 c + 2 d \begin{aligned} P({R_1}{B_2}{R_3}) &= P({R_1})P({B_2}|{R_1})P({R_3}|{R_1}{B_2}) \\ &= {r \over {b + r}} \cdot {{b + d} \over {b + r + c + d}} \cdot {{r + d + c} \over {b + r + 2c + 2d}}\\ \end{aligned} P(R1B2R3)=P(R1)P(B2∣R1)P(R3∣R1B2)=b+rr⋅b+r+c+db+d⋅b+r+2c+2dr+d+c
P ( R 1 R 2 B 3 ) = P ( R 1 ) P ( R 2 ∣ R 1 ) P ( B 3 ∣ R 1 R 2 ) = r b + r ⋅ r + c b + r + c + d ⋅ b + 2 d b + r + 2 c + 2 d \begin{aligned} P({R_1}{R_2}{B_3}) &= P({R_1})P({R_2}|{R_1})P({B_3}|{R_1}{R_2}) \\ &= {r \over {b + r}} \cdot {{r + c} \over {b + r + c + d}} \cdot {{b + 2d} \over {b + r + 2c + 2d}}\\ \end{aligned} P(R1R2B3)=P(R1)P(R2∣R1)P(B3∣R1R2)=b+rr⋅b+r+c+dr+c⋅b+r+2c+2db+2d
以上概率与黑球在第几次被抽出有关。这个模型可以有多种变化,具体如下:
(1)当 c = − 1 , d = 0 c=-1,d=0 c=−1,d=0时,即为不返回抽样。此时前次抽取结果会影响后次抽取结果。但只要抽取的黑球与红球个数确定,则概率不依赖其抽出球的次序,都是一样的。此例中有
P ( B 1 R 2 R 3 ) = P ( R 1 B 2 R 3 ) = P ( R 1 R 2 B 3 ) = b r ( r − 1 ) ( b + r ) ( b + r − 1 ) ( b + r − 2 ) \begin{aligned} P({B_1}{R_2}{R_3}) &= P({R_1}{B_2}{R_3}) = P({R_1}{R_2}{B_3})\\ &= {{br(r - 1)} \over {(b + r)(b + r - 1)(b + r - 2)}}\\ \end{aligned} P(B1R2R3)=P(R1B2R3)=P(R1R2B3)=(b+r)(b+r−1)(b+r−2)br(r−1)
(2)当 c = 0 , d = 0 c=0,d=0 c=0,d=0时,即为返回抽样。此时前次抽取结果不会影响后次抽取结果。故上述三个概率相等,且都等于
P ( B 1 R 2 R 3 ) = P ( R 1 B 2 R 3 ) = P ( R 1 R 2 B 3 ) = b r 2 ( b + r ) 3 P({B_1}{R_2}{R_3}) = P({R_1}{B_2}{R_3}) = P({R_1}{R_2}{B_3}) = {{b{r^2}} \over {{{(b + r)}^3}}} P(B1R2R3)=P(R1B2R3)=P(R1R2B3)=(b+r)3br2
(3)当 c > 0 , d = 0 c>0,d=0 c>0,d=0时,称为传染病模型。此时,每次取出球后会增加下一次取到同色球的概率,或换句话说,每次发现一个传染病患者,以后都会增加再传染的概率。故以上三个概率都相等,且都等于
P ( B 1 R 2 R 3 ) = P ( R 1 B 2 R 3 ) = P ( R 1 R 2 B 3 ) = b r ( r + c ) ( b + r ) ( b + r + c ) ( b + r + 2 c ) \begin{aligned} P({B_1}{R_2}{R_3}) &= P({R_1}{B_2}{R_3}) = P({R_1}{R_2}{B_3}) \\ &= {{br(r + c)} \over {(b + r)(b + r + c)(b + r + 2c)}}\\ \end{aligned} P(B1R2R3)=P(R1B2R3)=P(R1R2B3)=(b+r)(b+r+c)(b+r+2c)br(r+c)
(4)当 c = 0 , d > 0 c=0,d>0 c=0,d>0时,称为安全模型。此模型可解释为:每当事故发生了(红球被取出),安全工作就抓紧一些,下次再发生事故的概率就会减少;而当事故没有发生时(黑球被取出),安全工作就放松一些,下次再发生事故的概率就会增大。在这种场合,上述三个概率分别为
P ( B 1 R 2 R 3 ) = b b + r ⋅ r + d b + r + d ⋅ r + d b + r + 2 d P({B_1}{R_2}{R_3}) = {b \over {b + r}} \cdot {{r + d} \over {b + r + d}} \cdot {{r + d } \over {b + r + 2d}} P(B1R2R3)=b+rb⋅b+r+dr+d⋅b+r+2dr+d
P ( R 1 B 2 R 3 ) = r b + r ⋅ b + d b + r + d ⋅ r + d b + r + 2 d P({R_1}{B_2}{R_3}) = {r \over {b + r}} \cdot {{b + d} \over {b + r + d}} \cdot {{r + d } \over {b + r + 2d}} P(R1B2R3)=b+rr⋅b+r+db+d⋅b+r+2dr+d
P ( R 1 R 2 B 3 ) = r b + r ⋅ r b + r + d ⋅ b + 2 d b + r + 2 d P({R_1}{R_2}{B_3}) = {r \over {b + r}} \cdot {{r } \over {b + r + d}} \cdot {{b + 2d} \over {b + r + 2d}} P(R1R2B3)=b+rr⋅b+r+dr⋅b+r+2db+2d
性质3:设 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn为样本空间 Ω \Omega Ω的一个分割,即 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn互不相容,且 ⋃ i = 1 n B i = Ω \bigcup\limits_{i = 1}^n {{B_i} = \Omega } i=1⋃nBi=Ω ,如果 P ( B i ) > 0 , i = 1 , 2 , . . . , n P(B_i)>0,i=1,2,...,n P(Bi)>0,i=1,2,...,n,则对任一事件 A A A有
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A) = \sum\limits_{i = 1}^n {P({B_i})P(A|{B_i})} P(A)=i=1∑nP(Bi)P(A∣Bi)
例:敏感性问卷调查
性质4:设 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn是样本空间 Ω \Omega Ω的一个分割,即 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn互不相容,且 ⋃ i = 1 n B i = Ω \bigcup\limits_{i = 1}^n {{B_i} = \Omega } i=1⋃nBi=Ω ,如果 P ( A ) > 0 , P ( B i ) > 0 , i = 1 , 2 , . . . , n P(A)>0,P(B_i)>0,i=1,2,...,n P(A)>0,P(Bi)>0,i=1,2,...,n,则
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) , i = 1 , 2 , . . . , n P({B_i}|A) = {{P({B_i})P(A|{B_i})} \over {\sum\limits_{j = 1}^n {P({B_j})} P(A|{B_j})}},i = 1,2,...,n P(Bi∣A)=j=1∑nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi),i=1,2,...,n
在贝叶斯公式中,如果称 P ( B i ) P(B_i) P(Bi)为 B i B_i Bi的先验概率,称 P ( B i ∣ A ) P(B_i|A) P(Bi∣A)为 B i B_i Bi的后验概率,则贝叶斯公式是专门用于计算后验概率的,也就是通过 A A A的发生这个新信息,来对 B i B_i Bi的概率作出的修正。
例:狼来了
伊索寓言“孩子与狼”讲的是一个小孩每天到山上放羊,山里有狼出没。第一天,他在山上喊:“狼来了!狼来了!”山下的村民闻声便去打狼,可到山上,发现狼没有来;第二天仍是如此;第三天,狼真的来了,可无论小孩怎么喊叫,也没有人来救他,因为前两次他说了谎,人们不再相信他了。
现在用贝叶斯公式来分析此寓言中村民对这个小孩的信任程度是如何下降的。
首先记事件 A A A为“小孩说谎”,记事件 B B B为“小孩可信”。不妨设村民过去对这个小孩的印象为
P ( B ) = 0.8 , P ( B ‾ ) = 0.2 P(B)=0.8,P(\overline B)=0.2 P(B)=0.8,P(B)=0.2
我们现在用贝叶斯公式来求 P ( B ∣ A ) P(B|A) P(B∣A),亦即这个小孩说了一次慌后,村民对他信任程度的改变。
在贝叶斯公式中我们要用到概率 P ( A ∣ B ) P(A|B) P(A∣B)和 P ( A ∣ B ‾ ) P(A|\overline B) P(A∣B),这两个概率的含义是:前者为“可信”( B B B)的孩子“说谎”( A A A)的可能性,后者为“不可信”( B ‾ \overline B B)的孩子“说谎”( A A A)的可能性。在此不妨设
P ( A ∣ B ) = 0.1 , P ( A ∣ B ‾ ) = 0.5 P(A|B)=0.1,P(A|\overline B)=0.5 P(A∣B)=0.1,P(A∣B)=0.5
第一次村民上山打狼,发现狼没来,即小孩说了谎( A A A)。村民根据这个信息,对这个小孩的信任程度改变为
P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P ( B ) P ( A ∣ B ) + P ( B ‾ ) P ( A ∣ B ‾ ) = 0.8 × 0.1 0.8 × 0.1 + 0.2 × 0.5 = 0.444 \begin{aligned} P(B|A) &= {{P(B)P(A|B)} \over {P(B)P(A|B) + P(\overline B )P(A|\overline B )}}\\ &= {{0.8\times0.1} \over {0.8\times0.1 + 0.2\times0.5}} = 0.444\\ \end{aligned} P(B∣A)=P(B)P(A∣B)+P(B)P(A∣B)P(B)P(A∣B)=0.8×0.1+0.2×0.50.8×0.1=0.444
这表明村民上了一次当后,对这个小孩的信任程度由原来的0.8调整为0.444,也就是调整为
P ( B ) = 0.444 , P ( B ‾ ) = 0.556 P(B)=0.444,P(\overline B)=0.556 P(B)=0.444,P(B)=0.556
在此基础上,我们再一次用贝叶斯公式来计算 P ( B ∣ A ) P(B|A) P(B∣A),亦即这个小孩第二次说谎后,村民对他的信任程度改变为
P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P ( B ) P ( A ∣ B ) + P ( B ‾ ) P ( A ∣ B ‾ ) = 0.444 × 0.1 0.444 × 0.1 + 0.556 × 0.5 = 0.138 \begin{aligned} P(B|A) &= {{P(B)P(A|B)} \over {P(B)P(A|B) + P(\overline B )P(A|\overline B )}}\\ &= {{0.444\times0.1} \over {0.444\times0.1 + 0.556\times0.5}} = 0.138\\ \end{aligned} P(B∣A)=P(B)P(A∣B)+P(B)P(A∣B)P(B)P(A∣B)=0.444×0.1+0.556×0.50.444×0.1=0.138
这表明村民们经过两次上当,对这个小孩的信任程度已经从0.8下降到了0.138,如此低的信任度,村民听到第三次呼叫时怎么会再上山打狼呢?