Machine Learning之高等数学篇(十六)☞《条件概率、全概率、贝叶斯公式》

上一节呢,我们初探了《概率与数理统计》,这次我们续接上一节的内容,来专题学习《条件概率、全概率、贝叶斯公式》

注! 声明,本文转载,本文转载,本文转载!
本文转载,侵删! 感谢博主”hearthougan”(✈机票点我)

一、条件概率公式

    举个例子,比如让你背对着一个人,让你猜猜背后这个人是女孩的概率是多少?直接猜测,肯定是只有50%的概率,假如现在告诉你背后这个人是个长头发,那么女的概率就变为90%。所以条件概率的意义就是,当给定条件发生变化后,会导致事件发生的可能性发生变化。

    条件概率由文氏图出发,比较容易理解:
Machine Learning之高等数学篇(十六)☞《条件概率、全概率、贝叶斯公式》_第1张图片
p ( A ∣ B ) p(A|B) p(AB)表示B发生后A发生的概率,由上图可以看出B发生后,A再发生的概率就是 P ( A ∩ B ) P ( B ) \frac{P(A\cap B)}{P(B)} P(B)P(AB)
因此: p ( A ∣ B ) = P ( A ∩ B ) P ( B ) p(A|B) = \frac{P(A\cap B)}{P(B)} p(AB)=P(B)P(AB)

由:
p ( A ∣ B ) = P ( A ∩ B ) P ( B ) ⇒ p ( A ∩ B ) = p ( A ∣ B ) × p ( B ) p(A|B) = \frac{P(A\cap B)}{P(B)}\Rightarrow p(A\cap B) = p(A|B) \times p(B) p(AB)=P(B)P(AB)p(AB)=p(AB)×p(B)

⇒ p ( A ∩ B ) = P ( B ∣ A ) × P ( A ) \Rightarrow p(A\cap B) = P(B|A) \times P(A) p(AB)=P(BA)×P(A)

得:
p ( A ∣ B ) = P ( A ∩ B ) P ( B ) = p ( B ∣ A ) × P ( A ) p ( B ) p(A|B) = \frac{P(A\cap B)}{P(B)}=\frac{p(B|A) \times P(A)}{p(B)} p(AB)=P(B)P(AB)=p(B)p(BA)×P(A)

这就是条件概率公式。

假如事件A与B相互独立,那么:

p ( A ∩ B ) = P ( A ) × P ( B ) p(A\cap B)=P(A) \times P(B) p(AB)=P(A)×P(B)

注:
相互独立:表示两个事件发生互不影响。而互斥:表示两个事件不能同时发生,(两个事件肯定没有交集)。互斥事件一定不独立(因为一件事的发生导致了另一件事不能发生);独立事件一定不互斥,(如果独立事件互斥, 那么根据互斥事件一定不独立,那么就矛盾了),但是在概率形式上具有一些巧合性,一般地:

{ p ( A B ) = P ( A ) × P ( B ) i n d e p e n d e n c e p ( A B ) = 0 m u t e x \left\{ \begin{aligned} p(AB) = P(A) \times P(B) \quad independence \\ p(AB) = 0 \quad \quad \quad \quad \quad mutex \quad \quad \end{aligned} \right. {p(AB)=P(A)×P(B)independencep(AB)=0mutex

但是,对于两个独立事件,依然可以等于0,因为事件A或者事件B发生的概率可能为0.所以,并不是一定表示互斥。互斥和独立的理解还是要究其真正意义,而不是表达形式。

二、全概率公式

    先举个例子,小张从家到公司上班总共有三条路可以直达(如下图),但是每条路每天拥堵的可能性不太一样,由于路的远近不同,选择每条路的概率如下:

p ( L 1 ) = 0.5 ,   p ( L 2 ) = 0.3 ,   p ( L 3 ) = 0.2 p(L_{1}) = 0.5,\ p(L_{2}) = 0.3,\ p(L_{3}) = 0.2 p(L1)=0.5, p(L2)=0.3, p(L3)=0.2

每天上述三条路不拥堵的概率分别为:

p ( C 1 ) = 0.2 ,   p ( C 2 ) = 0.4 ,   p ( C 3 ) = 0.7 p(C_{1}) = 0.2,\ p(C_{2}) = 0.4,\ p(C_{3}) = 0.7 p(C1)=0.2, p(C2)=0.4, p(C3)=0.7

假设遇到拥堵会迟到,那么小张从Home到Company不迟到的概率是多少?
Machine Learning之高等数学篇(十六)☞《条件概率、全概率、贝叶斯公式》_第2张图片
其实不迟到就是对应着不拥堵,设事件C为到公司不迟到,事件为选择第i条路,则:

p ( C ) = p ( L 1 ) × p ( C ∣ L 1 ) + p ( L 2 ) × p ( C ∣ L ) + p ( L 3 ) × p ( C ∣ L 3 ) p(C) = p(L_{1}) \times p(C|L_{1}) + p(L_{2}) \times p(C|L) + p(L_{3}) \times p(C|L_{3}) p(C)=p(L1)×p(CL1)+p(L2)×p(CL)+p(L3)×p(CL3)

p ( C ) = p ( L 1 ) × p ( C 1 ) + p ( L 2 ) × p ( C 2 ) + p ( L 3 ) × p ( C 3 ) p(C) = p(L_{1}) \times p(C_{1}) + p(L_{2}) \times p(C_{2}) + p(L_{3}) \times p(C_{3}) p(C)=p(L1)×p(C1)+p(L2)×p(C2)+p(L3)×p(C3)

p ( C ) = 0.5 × 0.2 + 0.3 × 0.4 + 0.2 × 0.7 = 0.36 p(C) = 0.5 \times 0.2 + 0.3 \times 0.4 + 0.2 \times 0.7 = 0.36 p(C)=0.5×0.2+0.3×0.4+0.2×0.7=0.36

    全概率就是表示达到某个目的,有多种方式(或者造成某种结果,有多种原因),问达到目的的概率是多少(造成这种结果的概率是多少)?

全概率公式:

设事件 L 1 , L 2 . . . . . L_{1},L_{2}..... L1,L2.....是一个完备事件组,则对于任意一个事件C,若有如下公式成立:

p ( C ) = p ( L 1 ) p ( C ∣ L 1 ) . . . . . . p ( L n ) p ( C ∣ L n ) = ∑ i = 1 n p ( L i ) p ( C ∣ L i ) p(C) = p(L_{1})p(C|L_{1})......p(L_{n})p(C|L_{n})=\sum_{i=1}^{n}p(L_{i})p(C|L_{i}) p(C)=p(L1)p(CL1)......p(Ln)p(CLn)=i=1np(Li)p(CLi)

那么就称这个公式为全概率公式。

三、贝叶斯公式

    仍旧借用上述的例子,但是问题发生了改变,问题修改为:到达公司未迟到选择第1条路的概率是多少?

不是 p ( L 1 ) = 0.5 p(L_{1})=0.5 p(L1)=0.5因为0.5这个概率表示的是,选择第一条路的时候并没有靠考虑是不是迟到,只是因为距离公司近才知道选择它的概率,而现在我们是知道未迟到这个结果,是在这个基础上问你选择第一条路的概率,所以并不是直接就可以得出的。

故有:

p ( L 1 ∣ C ) = p ( C ∣ L 1 ) × p ( L 1 ) p ( C ) p(L_{1}|C)= \frac{p(C|L_{1}) \times p(L_{1})}{p(C)} p(L1C)=p(C)p(CL1)×p(L1)

p ( L 1 ∣ C ) = p ( C ∣ L 1 ) × p ( L 1 ) P ( L 1 ) × p ( C ∣ L 1 ) + P ( L 2 ) × p ( C ∣ L 2 ) + P ( L 3 ) × p ( C ∣ L 3 ) p(L_{1}|C)= \frac{p(C|L_{1}) \times p(L_{1})}{P(L_{1}) \times p(C|L_{1})+ P(L_{2}) \times p(C|L_{2}) + P(L_{3}) \times p(C|L_{3})} p(L1C)=P(L1)×p(CL1)+P(L2)×p(CL2)+P(L3)×p(CL3)p(CL1)×p(L1)

p ( L 1 ∣ C ) = 0.2 × 0.5 0.2 × 0.5 + 0.3 × 0.4 + 0.2 × 0.7 = 0.28 p(L_{1}|C)= \frac{0.2 \times 0.5}{0.2 \times 0.5 + 0.3 \times 0.4 + 0.2 \times 0.7} = 0.28 p(L1C)=0.2×0.5+0.3×0.4+0.2×0.70.2×0.5=0.28

所以选择第一条路的概率为0.28.

贝叶斯公式就是当已知结果,问导致这个结果的第i原因的可能性是多少?执果索因!

贝叶斯公式:

在已知条件概率和全概率的基础上,贝叶斯公式是很容易计算的:

p ( L k ∣ C ) = p ( C ∣ L k ) × p ( L k ) p ( C ) p(L_{k}|C)= \frac{p(C|L_{k}) \times p(L_{k})}{p(C)} p(LkC)=p(C)p(CLk)×p(Lk)

⇒ \Rightarrow

p ( L k ∣ C ) = p ( C ∣ L k ) × p ( L k ) ∑ i = 1 n p ( L i ) × p ( C ∣ L i ) p(L_{k}|C) = \frac{p(C|L_{k}) \times p(L_{k})}{\sum_{i=1}^{n}p(L_{i}) \times p(C|L_{i})} p(LkC)=i=1np(Li)×p(CLi)p(CLk)×p(Lk)

至此:《条件概率、全概率、贝叶斯公式》,我们就先学习到这里~接下来进入《随机变量与常见离散型及其分布》相关的学习!


生活嘛~ 最重要的就是开心喽~ O(∩_∩)O~~

这里写图片描述


你可能感兴趣的:(Machine)