P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ∣ A ) p ( A ) + P ( B ∣ A ˉ ) P ( A ˉ ) P(A|B) = {P(B|A)P(A) \over {P(B|A)p(A) +P(B|\bar A)P(\bar A)}} P(A∣B)=P(B∣A)p(A)+P(B∣Aˉ)P(Aˉ)P(B∣A)P(A)
证明
P ( A , B ) = P ( B , A ) P(A,B) = P(B,A) P(A,B)=P(B,A)
P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) {P(A|B)P(B)} = {P(B|A)P(A)} P(A∣B)P(B)=P(B∣A)P(A)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) p ( B ) P(A|B) = {P(B|A)P(A) \over {p(B)}} P(A∣B)=p(B)P(B∣A)P(A)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) p ( B ∣ A ) P ( A ) + P ( B ∣ A ˉ ) P ( A ˉ ) P(A|B) = {P(B|A)P(A) \over {p(B|A)P(A)+P(B|\bar A)P(\bar A)}} P(A∣B)=p(B∣A)P(A)+P(B∣Aˉ)P(Aˉ)P(B∣A)P(A)
其中B代表着证据或是数据,A代表着事件,P(A)称之为先验概率,P(A|B)称之为后验概率。
问题:
参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车或者是奖品,选中后面有车的那扇门就可以赢得该汽车或奖品,而另外两扇门后面则各藏有一隻山羊。当参赛者选定了一扇门,但未去开启它的时候,知道门后情形的节目主持人会开启剩下两扇门的其中一扇,露出其中一隻山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的机率?
求证
假设你已经选择了门1
开门前:
设门1,2,3后有车的概率分别为 P ( 1 ) , P ( 2 ) , P ( 3 ) P(1),P(2),P(3) P(1),P(2),P(3),选中车概率为: P ( 1 ) = P ( 2 ) = P ( 3 ) = 1 3 P(1)=P(2)=P(3) = {1 \over 3} P(1)=P(2)=P(3)=31,其中的 P ( n ) P(n) P(n)为先验概率
开门后:
P ( 2 ∣ 3 ) = P ( 3 ∣ 2 ) P ( 2 ) p ( 3 ∣ 2 ) P ( 2 ) + P ( 3 ∣ 1 ) P ( 1 ) + + P ( 3 ∣ 3 ) P ( 3 ) P(2|3) = {P(3|2)P(2) \over {p(3|2)P(2)+P(3|1)P(1)++P(3|3)P(3)}} P(2∣3)=p(3∣2)P(2)+P(3∣1)P(1)++P(3∣3)P(3)P(3∣2)P(2)
= 1 ⋅ 1 3 1 ⋅ 1 3 + 1 2 ⋅ 1 3 + 0 ⋅ 1 3 = {1 \cdot {1\over 3}\over {1 \cdot {1 \over 3}+{{1 \over 2} \cdot{1 \over 3}}+{0 \cdot {1 \over 3}}}} =1⋅31+21⋅31+0⋅311⋅31
= 2 3 ={2 \over 3} =32
P ( 1 ∣ 3 ) = 1 3 P(1|3) = {1 \over 3} P(1∣3)=31
因为 P ( 1 ∣ 3 ) < P ( 2 ∣ 3 ) P(1|3)<P(2|3) P(1∣3)<P(2∣3),所以选择换门。
任何函数都可以以泰勒展开式拟合。
假设对 f ( x ) f(x) f(x)的拟合函数有如下四个
过拟合问题
虽然函数 f 4 ( x ) f_4(x) f4(x)在训练集上完全拟合, C o s t = 0 Cost=0 Cost=0,但是在测试集上表现上确有很大的误差,这便是过拟合问题。
泛化误差
上文提到的在测试集上的误差,便是泛化误差。我们求得的最佳拟合函数,应该满足泛化误差最小。
贝叶斯错误率
在求得最小泛化误差的同时,我们需要使拟合函数的训练误差接近贝叶斯错误率。
根据定义,任何假设都会带来犯错误概率的增加;如果一个假设不能增加理论的正确率,那么它的唯一作用就是增加整个理论为错误的概率
在如上的四个拟合函数中,在能解释问题的情况下,我们选择有3个参数的 f 3 ( x ) f_3(x) f3(x)函数。因为假设越多,参数越多,则这个函数就越脆弱。
修改代价函数
修改前: C o s t = 1 m Σ ( Y − Y p ) 2 Cost = {1 \over m}\Sigma(Y-Y_p)^2 Cost=m1Σ(Y−Yp)2
修改后: C o s t = 1 m Σ ( Y − Y p ) 2 + f ( m ) Cost ={1 \over m}\Sigma(Y-Y_p)^2 +f(m) Cost=m1Σ(Y−Yp)2+f(m)
举例: C o s t = 1 m Σ ( Y − Y p ) 2 + ( W 1 2 + W 2 2 + ⋯ + W m 2 ) Cost ={1 \over m}\Sigma(Y-Y_p)^2 +(W_1^2+W_2^2+\cdots +W_m^2) Cost=m1Σ(Y−Yp)2+(W12+W22+⋯+Wm2)
将代价函数增加了一项关于模型的函数,在模型趋向于复杂时,代价函数值也相应增加
https://zh.wikipedia.org/zh/蒙提霍爾問題 ↩︎
https://zh.wikipedia.org/zh-hans/奥卡姆剃刀 ↩︎