Task2 bayes_plus(贝叶斯)

生成模型是所有变量的全概率模型:

全概率公式:
举例:一个村子,有三个小偷, A 1 = A_1= A1=小张, A 2 = A_2= A2=小政, A 1 = A_1= A1=小英,两两互斥,求 P ( B ) = P { 失 窃 } P(B)=P\{失窃\} P(B)=P{}

分析:给出 A 1 , A 2 , A 3 A_1,A_2,A_3 A1,A2,A3,若 A 1 ∪ A 2 ∪ A 3 A_1\cup A_2\cup A_3 A1A2A3 A i A j = ∅ , i ≠ j A_iA_j=\varnothing,i \neq j AiAj=,i=j,称作完备事件组

分成两个阶段:1.选人,2.去偷

P ( B ) = P ( B Ω ) = P ( B ∩ ( A 1 ∪ A 2 ∪ A 3 ) ) = P ( B A 1 ∪ B A 2 ∪ B A 3 ) = P ( B A 1 ) + P ( B A 2 ) + P ( B A 3 ) = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + P ( A 3 ) P ( B ∣ A 3 ) P(B)=P(B\Omega)=P(B\cap(A_1\cup A_2\cup A_3))=P(BA_1 \cup BA_2 \cup BA_3)=P(BA_1)+P(BA_2)+P(BA_3)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3) P(B)=P(BΩ)=P(B(A1A2A3))=P(BA1BA2BA3)=P(BA1)+P(BA2)+P(BA3)=P(A1)P(BA1)+P(A2)P(BA2)+P(A3)P(BA3)

P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum\limits_{i=1}^{n}P(A_i)P(B|A_i) P(B)=i=1nP(Ai)P(BAi)

判别模型是在给定观测变量值前提下目标变量条件概率模型:

P ( A i ∣ B ) P(A_i|B) P(AiB)

独立事件的解释:

独立的条件:如 A 1 , A 2 , A 3 A_1,A_2,A_3 A1,A2,A3

有以下条件:

1. P ( A 1 A 2 ) = P ( A 1 ) P ( A 2 ) P(A_1A_2)=P(A_1)P(A_2) P(A1A2)=P(A1)P(A2)

2. P ( A 1 A 3 ) = P ( A 1 ) P ( A 3 ) P(A_1A_3)=P(A_1)P(A_3) P(A1A3)=P(A1)P(A3)

3. P ( A 2 A 3 ) = P ( A 2 ) P ( A 3 ) P(A_2A_3)=P(A_2)P(A_3) P(A2A3)=P(A2)P(A3)

4. P ( A 1 A 2 A 3 ) = P ( A 1 ) P ( A 2 ) P ( A 3 ) P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3) P(A1A2A3)=P(A1)P(A2)P(A3)

满足1,2,3就是两两独立,全满足就是互相独立

贝叶斯公式举例:(逆概公式)

若B发生了(执果索因),如两个箱子,一个里面只有黑球,一个里面只有白球,概率都是1/2,但是取球,取到黑球,那概率就变成了1和0,就这是贝叶斯修正

P ( A j ∣ B ) = P ( A j B ) P ( B ) = P ( A j ) P ( B ∣ A j ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(A_j|B)=\frac{P(A_jB)}{P(B)} = \frac{P(A_j)P(B|A_j)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)} P(AjB)=P(B)P(AjB)=i=1nP(Ai)P(BAi)P(Aj)P(BAj)

举例:

设有甲和乙两名运动员,甲命中射击的概率为0.6,乙的威0.5,求下列概率:

1.从甲乙中任选一个人去射击,若目标命中,则是甲命中的概率是多少

2.甲乙各自独立射击,若目标命中,则是甲命中的概率是多少

1.分阶段:(1)选人: A 甲 , A 乙 A_甲,A_乙 A,A.(2)射击:命中= B B B

p ( A 甲 ∣ B ) = P ( A 甲 B ) P ( B ) = P ( A 甲 ) P ( B ∣ A 甲 ) P ( B ) = P ( A 甲 ) P ( B ∣ A 甲 ) P ( A 甲 ) P ( B ∣ A 甲 ) + P ( A 乙 ) P ( B ∣ A 乙 ) = 1 2 ∗ 0.6 1 2 ∗ 0.6 + 1 2 ∗ 0.5 = 6 11 p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)P(B|A_甲)}{P(B)}=\frac{P(A_甲)P(B|A_甲)}{P(A_甲)P(B|A_甲)+P(A_乙)P(B|A_乙)}=\frac{\frac{1}{2}*0.6}{\frac{1}{2}*0.6+\frac{1}{2}*0.5}=\frac{6}{11} p(AB)=P(B)P(AB)=P(B)P(A)P(BA)=P(A)P(BA)+P(A)P(BA)P(A)P(BA)=210.6+210.5210.6=116

2.不分阶段

A 甲 = A_甲= A={甲命中}

A 乙 = A_乙= A={乙命中}

B = B= B={目标被命中}

B = A 甲 ∪ A 乙 B=A_甲 \cup A_乙 B=AA 甲或者乙命中

p ( A 甲 ∣ B ) = P ( A 甲 B ) P ( B ) = P ( A 甲 ) P ( A 甲 ) + P ( A 乙 ) − P ( A 甲 A 乙 ) p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)}{P(A_甲)+P(A_乙)-P(A_甲A_乙)} p(AB)=P(B)P(AB)=P(A)+P(A)P(AA)P(A)

极大似然估计:离散型和连续性,即 L ( θ ) = { ∏ i = 1 n p ( X i , θ ) ∏ i = 1 n f ( X i , θ ) L(\theta)=\begin{cases}\prod\limits_{i=1}^n p(X_i,\theta)\\\prod\limits_{i=1}^n f(X_i,\theta)\end{cases} L(θ)=i=1np(Xi,θ)i=1nf(Xi,θ),当 θ \theta θ取多少时,概率最大

举例:运动员射箭,运动员分1和2级运动员,射箭成绩为 ( 10 , 9 , 10 , 10 ) (10,9,10,10) (10,9,10,10),所以我们可以推测这个是1级运动员,换句话说,在他为1级运动员时,射出 ( 10 , 9 , 10 , 10 ) (10,9,10,10) (10,9,10,10)的成绩的概率最大,即 p ( 10 , 9 , 10 , 10 ∣ 1 ) = max ⁡ p(10,9,10,10 | 1)=\max p(10,9,10,101)=max,就是参数为多少时,观测值出现的概率最大, p ( 10 , 9 , 10 , 10 ∣ ? ) = max ⁡ p(10,9,10,10 | ?)=\max p(10,9,10,10?)=max ? ? ?处就是我们要算的 θ \theta θ.

计算步骤: 一般取对数,令 d log ⁡ L ( θ ) d θ = 0 \frac{d\log L(\theta)}{d\theta}=0 dθdlogL(θ)=0,得出 θ ^ \hat\theta θ^,此处 log ⁡ \log log就是 ln ⁡ \ln ln,取对数为什么可以求出 θ ^ \hat\theta θ^,是因为对数函数严格单调增;也可以不取对数,直接求导;如果 L ( θ ) L(\theta) L(θ)关于 θ \theta θ单调,直接定义法,取两端,一般是样本的 max ⁡ \max max或者 m i n min min。Notice:对于连续性的,要根据分布函数先求出概率密度, X X X ~ F ( x , θ ) F(x,\theta) F(x,θ)求导得 X X X ~ f ( x , θ ) f(x,\theta) f(x,θ)

你可能感兴趣的:(机器学习,机器学习)