“概率论只不过是把常识用数学公式表达了出来”——拉普拉斯
联合概率指的是包含多个条件且所有条件同时成立的概率,记作 P ( X = a , Y = b ) P(X=a,Y=b) P(X=a,Y=b)或 P ( a , b ) P(a,b) P(a,b),有的书上也习惯记作P(ab)。
边缘概率与联合概率对应, P ( X = a ) P(X=a) P(X=a)或 P ( Y = b ) P(Y=b) P(Y=b),这类仅与单个随机变量有关的概率称为边缘概率。
P ( X = a ) = ∑ b P ( X = a , Y = b ) P(X=a) = \sum_{b}P(X=a, Y=b) P(X=a)=∑bP(X=a,Y=b)
P ( Y = b ) = ∑ a P ( X = a , Y = b ) P(Y=b)= \sum_{a}P(X=a,Y=b) P(Y=b)=∑aP(X=a,Y=b)
求和符号表示穷举所有Y(或X)所能取得b(或a)后,所对应值相加得到的和。
长相极为相似的的双胞胎兄弟,单从长相上很难对两人进行区分,但两人的喜好却存在较大差异。其中,哥哥喜好照相,弟弟不太喜欢。两人的父母为兄弟二人定制了一本内含1000张照片的相册。其中,有哥哥的照片900张,弟弟的照片100张。现从中任取一张照片,让猜一下是谁的照片。本来,因为照片是随机选取的,不论猜是谁的均可能猜错或猜中。但是,如果事先知道两人的喜好,则猜是哥哥的照片,猜中的概率会大一点。这种先于某个事件的发生就已知道的概率称为先验概率。
对于先验概率而言,有下面的结果。设哥哥的照片全体组成类别 w 1 w_1 w1,弟弟的照片全体组成类别 w 2 w_2 w2,并用 P ( w 1 ) P(w_1) P(w1)和 P ( w 2 ) P(w_2) P(w2)分别表示两个类别发生的先验概率,则有
P ( w 1 ) + P ( w 2 ) = 1 P(w_1)+P(w_2)=1 P(w1)+P(w2)=1
它被定义为在输入模式属于某个类别 w w w的条件下,观测样本作为 X X X出现的概率密度函数,用 p ( X ∣ w ) p(X|w) p(X∣w)表示。显然,它反映了类别 w w w的样本在所属特征空间中的分布情况。
通常假定类条件概率密度函数的函数形式及主要参数是已知的,或者可以通过大量的抽样试验进行估计。
它被定义为在观测样本 X X X被观测的情况下,该观测样本属于某个类别 w w w的概率,用 p ( w ∣ X ) p(w|X) p(w∣X)表示。后验概率可以根据贝叶斯公式进行计算。它可以用作进行分类判决的依据。
条件概率:设 A , B A,B A,B为两事件,且 P ( A ) > 0 P(A)>0 P(A)>0,称
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A) = \frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
为在事件 A A A发生条件下 B B B事件发生的条件概率。
将条件概率公式移项即得乘法公式:
设 P ( A ) > 0 P(A)>0 P(A)>0,则有
P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(B∣A)=P(B)P(A∣B)
若事件 A A A与事件 B B B相互独立,那么:
P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
相互独立:表示两个事件发生互不影响
互斥:表示两个事件不能同时发生
互斥事件一定不独立(一件事情的发生导致了另一件事情不能发生)
独立事件一定不互斥(如果独立事件互斥,那么根据互斥事件一定不独立,那么就会产生矛盾)
例,小张从家到公司上班总共有三条路可以直达,(如下图),但是每条路每天拥堵的可能性不太一样,由于路的远近不同,选择(互斥)每条路的概率如下:
p ( B 1 ) = 0.5 , p ( B 2 ) = 0.3 , p ( B 3 ) = 0.2 p(B_1)=0.5,p(B_2)=0.3,p(B_3)=0.2 p(B1)=0.5,p(B2)=0.3,p(B3)=0.2
每天上述三条路不拥堵的概率分别为:
p ( A 1 ) = 0.2 , p ( A 2 ) = 0.4 , p ( A 3 ) = 0.7 p(A_1)=0.2,p(A_2)=0.4,p(A_3)=0.7 p(A1)=0.2,p(A2)=0.4,p(A3)=0.7
假设遇到拥堵会迟到,那么小张从家到公式不迟到的概率是多少?
则不拥堵的概率为:
不迟到对应着不拥堵,设事件 A A A为到公司不迟到,事件 B i B_i Bi为选择第 i i i条路,则:
p ( A ) = p ( B 1 ) × p ( A ∣ B 1 ) + p ( B 2 ) × p ( A ∣ B 2 ) + p ( B 3 ) × p ( A ∣ B 3 ) p(A)=p(B_1)\times{p(A|B_1)}+p(B_2)\times{p(A|B_2)}+p(B_3)\times{p(A|B_3}) p(A)=p(B1)×p(A∣B1)+p(B2)×p(A∣B2)+p(B3)×p(A∣B3)
全概率公式就是表示达到某个目的,有多种方式(或者造成某种结果,有多种原因),问达到目的的概率是多少(造成这种结果的概率是多少)?
全概率公式:设实验 E E E的样本空间为 S S S, A A A为 E E E的事件,若 B 1 , B 2 , ⋅ ⋅ ⋅ , B n B_1,B_2, ···,B_n B1,B2,⋅⋅⋅,Bn为 S S S的一个完备事件组(或称为 S S S的一个划分),即满足条件
仍借用上述例子,问题修改为:到达公司未迟到选择第1条路的概率是多少?
在这里需要在未迟到的基础上得出这个概率。
故有:
p ( B 1 ∣ A ) = p ( A ∣ B 1 ) × B 1 p ( A ) \begin{aligned} &p(B_1|A) = \frac{p(A|B_1)\times{B_1}}{p(A)} \end{aligned} p(B1∣A)=p(A)p(A∣B1)×B1
将 p ( A ) p(A) p(A)按全概率公式展开得:
p ( B 1 ∣ A ) = p ( A ∣ B 1 ) × p ( B 1 ) p ( B 1 ) × p ( A ∣ B 1 ) + p ( B 2 ) × p ( A ∣ B 2 ) + p ( B 3 ) × p ( A ∣ B 3 ) p(B_1|A) = \frac{p(A|B_1)\times{p(B_1)}} {p(B_1)\times{p(A|B_1)} + p(B_2)\times{p(A|B_2)}+p(B_3)\times{p(A|B_3)}} p(B1∣A)=p(B1)×p(A∣B1)+p(B2)×p(A∣B2)+p(B3)×p(A∣B3)p(A∣B1)×p(B1)
贝叶斯公式就是当已知结果,问导致这个结果的第i原因的可能性是多少?执果索因!
贝叶斯公式:设试验 E E E的样本空间为 S S S, A A A为 E E E的事件, B 1 , B 2 , ⋅ ⋅ ⋅ , B n B_1,B_2, ···,B_n B1,B2,⋅⋅⋅,Bn为 S S S的一个完备事件组,即 S S S的一个划分,且 P ( A ) > 0 , P ( B i ) > 0 , i = 1 , 2 , ⋅ ⋅ ⋅ , n P(A)>0, P(B_i)>0, i=1,2,···,n P(A)>0,P(Bi)>0,i=1,2,⋅⋅⋅,n,则
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A) = \frac{P(B_i)P(A|B_i)}{ \sum_{j=1}^nP(B_j)P(A|B_j)} P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)