贝叶斯定理与机器学习

文章目录

    • 概率运算
    • 贝叶斯公式
    • 贝叶斯推理
        • 三门问题 [^1]
    • 贝叶斯推理与机器学习
        • 泰勒展开
        • 假设的重要性
        • 奥卡姆剃刀[^2]
        • 决策理论

概率运算

  1. 求事件A或B发生的概率: A ⋃ B → P ( A + B ) = P ( A ) + P ( B ) A \bigcup B \to P(A+B) = P(A)+P(B) ABP(A+B)=P(A)+P(B)
  2. 求事件A且B发生的概率: A ⋂ B → P ( A , B ) = P ( A ) P ( B ) A \bigcap B \to P(A,B) = P(A)P(B) ABP(A,B)=P(A)P(B)
  3. 求事件A不发生的概率: A ˉ → P ( A ˉ ) = 1 − P ( A ) \bar A \to P(\bar A) = 1 - P(A) AˉP(Aˉ)=1P(A)
  4. 求在事件B发生的条件下,事件A发生的概率: P ( A ∣ B ) = P ( A , B ) / P ( B ) P(A|B) = P(A,B)/P(B) P(AB)=P(A,B)/P(B)
  5. 求在事件A发生的条件下,事件B的概率: P ( B ∣ A ) = P ( A , B ) / P ( A ) P(B|A) = P(A,B)/P(A) P(BA)=P(A,B)/P(A)
  6. 全概率公式: P ( A ) = P ( A ∣ B ) P ( B ) + P ( A ∣ B ˉ ) P ( B ˉ ) P(A) = P(A|B)P(B) +P(A|\bar B)P(\bar B) P(A)=P(AB)P(B)+P(ABˉ)P(Bˉ)

贝叶斯公式

P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ∣ A ) p ( A ) + P ( B ∣ A ˉ ) P ( A ˉ ) P(A|B) = {P(B|A)P(A) \over {P(B|A)p(A) +P(B|\bar A)P(\bar A)}} P(AB)=P(BA)p(A)+P(BAˉ)P(Aˉ)P(BA)P(A)

证明
P ( A , B ) = P ( B , A ) P(A,B) = P(B,A) P(A,B)=P(B,A)
P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) {P(A|B)P(B)} = {P(B|A)P(A)} P(AB)P(B)=P(BA)P(A)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) p ( B ) P(A|B) = {P(B|A)P(A) \over {p(B)}} P(AB)=p(B)P(BA)P(A)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) p ( B ∣ A ) P ( A ) + P ( B ∣ A ˉ ) P ( A ˉ ) P(A|B) = {P(B|A)P(A) \over {p(B|A)P(A)+P(B|\bar A)P(\bar A)}} P(AB)=p(BA)P(A)+P(BAˉ)P(Aˉ)P(BA)P(A)

其中B代表着证据或是数据,A代表着事件,P(A)称之为先验概率,P(A|B)称之为后验概率。

贝叶斯推理

三门问题 1

问题:
参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车或者是奖品,选中后面有车的那扇门就可以赢得该汽车或奖品,而另外两扇门后面则各藏有一隻山羊。当参赛者选定了一扇门,但未去开启它的时候,知道门后情形的节目主持人会开启剩下两扇门的其中一扇,露出其中一隻山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率?

求证
假设你已经选择了门1
开门前:
设门1,2,3后有车的概率分别为 P ( 1 ) , P ( 2 ) , P ( 3 ) P(1),P(2),P(3) P(1),P(2),P(3),选中车概率为: P ( 1 ) = P ( 2 ) = P ( 3 ) = 1 3 P(1)=P(2)=P(3) = {1 \over 3} P(1)=P(2)=P(3)=31,其中的 P ( n ) P(n) P(n)为先验概率
开门后:
P ( 2 ∣ 3 ) = P ( 3 ∣ 2 ) P ( 2 ) p ( 3 ∣ 2 ) P ( 2 ) + P ( 3 ∣ 1 ) P ( 1 ) + + P ( 3 ∣ 3 ) P ( 3 ) P(2|3) = {P(3|2)P(2) \over {p(3|2)P(2)+P(3|1)P(1)++P(3|3)P(3)}} P(23)=p(32)P(2)+P(31)P(1)++P(33)P(3)P(32)P(2)
= 1 ⋅ 1 3 1 ⋅ 1 3 + 1 2 ⋅ 1 3 + 0 ⋅ 1 3 = {1 \cdot {1\over 3}\over {1 \cdot {1 \over 3}+{{1 \over 2} \cdot{1 \over 3}}+{0 \cdot {1 \over 3}}}} =131+2131+031131
= 2 3 ={2 \over 3} =32
P ( 1 ∣ 3 ) = 1 3 P(1|3) = {1 \over 3} P(13)=31
因为 P ( 1 ∣ 3 ) < P ( 2 ∣ 3 ) P(1|3)<P(2|3) P(13)<P(23),所以选择换门。

贝叶斯推理与机器学习

泰勒展开

任何函数都可以以泰勒展开式拟合。

假设对 f ( x ) f(x) f(x)的拟合函数有如下四个

  • f 1 ( x ) : Y = W 1 → 拟 合 得 最 差 f_1(x) :Y = W_1 \to 拟合得最差 f1(x):Y=W1
  • f 2 ( x ) : Y = W 1 X + B → 拟 合 的 极 差 f_2(x):Y=W_1X+B \to 拟合的极差 f2(x):Y=W1X+B
  • f 3 ( x ) : Y = W 1 X 3 + W 2 X 2 + W 3 X 1 + B 拟 合 的 很 好 f_3(x):Y=W_1X^3+W_2X^2+W_3X^1+B 拟合的很好 f3(x):Y=W1X3+W2X2+W3X1+B
  • f 4 ( x ) : Y = W 1 X 10 + W 2 X 9 + ⋯ + W 10 X 1 B → 完 全 拟 合 f_4(x):Y=W_1X^{10}+W_2X^9+\cdots +W_{10}X^1B \to 完全拟合 f4(x):Y=W1X10+W2X9++W10X1B

假设的重要性

过拟合问题
虽然函数 f 4 ( x ) f_4(x) f4(x)在训练集上完全拟合, C o s t = 0 Cost=0 Cost=0,但是在测试集上表现上确有很大的误差,这便是过拟合问题。

泛化误差
上文提到的在测试集上的误差,便是泛化误差。我们求得的最佳拟合函数,应该满足泛化误差最小。

贝叶斯错误率
在求得最小泛化误差的同时,我们需要使拟合函数的训练误差接近贝叶斯错误率。

奥卡姆剃刀2

根据定义,任何假设都会带来犯错误概率的增加;如果一个假设不能增加理论的正确率,那么它的唯一作用就是增加整个理论为错误的概率

在如上的四个拟合函数中,在能解释问题的情况下,我们选择有3个参数的 f 3 ( x ) f_3(x) f3(x)函数。因为假设越多,参数越多,则这个函数就越脆弱。

修改代价函数
修改前: C o s t = 1 m Σ ( Y − Y p ) 2 Cost = {1 \over m}\Sigma(Y-Y_p)^2 Cost=m1Σ(YYp)2
修改后: C o s t = 1 m Σ ( Y − Y p ) 2 + f ( m ) Cost ={1 \over m}\Sigma(Y-Y_p)^2 +f(m) Cost=m1Σ(YYp)2+f(m)
举例: C o s t = 1 m Σ ( Y − Y p ) 2 + ( W 1 2 + W 2 2 + ⋯ + W m 2 ) Cost ={1 \over m}\Sigma(Y-Y_p)^2 +(W_1^2+W_2^2+\cdots +W_m^2) Cost=m1Σ(YYp)2+(W12+W22++Wm2)
将代价函数增加了一项关于模型的函数,在模型趋向于复杂时,代价函数值也相应增加

决策理论


  1. https://zh.wikipedia.org/zh/蒙提霍爾問題 ↩︎

  2. https://zh.wikipedia.org/zh-hans/奥卡姆剃刀 ↩︎

你可能感兴趣的:(贝叶斯定理与机器学习)