模式识别——贝叶斯决策理论

模式识别——贝叶斯决策理论BDR

  • 须知
  • 基本原则
  • 0-1损失下的BDR
  • MAP(极大后验)
  • log trick

须知

所有内容在分类问题下讨论。

基本原则

定义

  • X X X为观测
  • Y Y Y为状态
  • g ( x ) g(x) g(x) x x x y y y进行预测
  • 预测损失为 L [ g ( x ) , i ] L[g(x),i] L[g(x),i]

风险 R i s k Risk Risk为损失的期望,即对所有观测造成的损失的平均,即对大量观测判别的损失最低:
R i s k = E X , Y [ L ( X , Y ) ] = ∫ ∑ i = 1 M P Y , X ( i , x ) L [ g ( x ) , i ] d x R i s k=E_{X,Y}[L(X,Y)]=\\ \int\sum_{i=1}^{M}P_{Y,X}(i,x)L[g(x),i]d x Risk=EX,Y[L(X,Y)]=i=1MPY,X(i,x)L[g(x),i]dx

通过条件概率展开成如下形式:
R i s k = E X [ R ( x ) ] = ∫ P X ( x ) R ( x ) d x Risk=E_X[R(x)]\\ =\textstyle\int P_{X}(x)R(x)d x Risk=EX[R(x)]=PX(x)R(x)dx

其中 R ( x ) R(x) R(x)为条件风险,即给定观测下的风险:
R ( x ) = ∑ i = 1 M P Y ∣ X ( i ∣ x ) L [ g ( x ) , i ] R(x)=\sum_{i=1}^{M}P_{Y|X}(i\mid x)L[g(x),i] R(x)=i=1MPYX(ix)L[g(x),i]

我们的目标就是找一个最优的判别函数,在观测 x x x给定的情况,使得对状态的预测损失最小。

g ∗ ( x ) = arg ⁡ min ⁡ g ( x ) R ( x ) g^{*}(x)=\arg\operatorname*{min}_{g(x)}R(x) g(x)=argg(x)minR(x)

gpt给出的使用条件风险代替全局风险的原因,可以参考:
模式识别——贝叶斯决策理论_第1张图片

0-1损失下的BDR

通过推导可以得出结论,0-1损失下的BDR就是MAP(极大后验准则),这是非常符合认知的:
g ∗ ( x ) = a r g m a x i P Y ∣ X ( i ∣ x ) {\mathcal{g}}^{*}(x)=argmax_{i}P_{Y|X}(i\mid x) g(x)=argmaxiPYX(ix)
对应的损失为:
R ∗ = ∫ P Y , X ( y ≠ g ∗ ( x ) , x ) d x R^{*}=\int P_{Y,X}(y\neq g^{*}(x),x)d x R=PY,X(y=g(x),x)dx

MAP(极大后验)

考虑二分类问题,使用极大后验可以表示为:
模式识别——贝叶斯决策理论_第2张图片
使用贝叶斯公式对极大后验展开,由于展开后的分母相同可以约掉(观测x已知),可以得到:
在这里插入图片描述

log trick

两边取对数等价,可以将决策函数化为以下形式,以简化计算:模式识别——贝叶斯决策理论_第3张图片
总而言之:
模式识别——贝叶斯决策理论_第4张图片

你可能感兴趣的:(各类课程整理,概率统计,模式识别)