【机器学习】贝叶斯决策论小结

贝叶斯决策论是解决模式分类问题的一种基本统计途径。其假设:决策问题可以用概率的形式来描述,并且所有有关的概率结构均已知。现对其进行一下简单的总结。

贝叶斯决策准则

  按照不同决策标准,会得到不同意义下的最优决策。 
  最小错误率准则 
  最小风险准则 
  最小最大决策准则 
  Neyman-Pearson准则

最小错误率准则

  若样本 x 为类别 wj 的概率为 P(wj|x) ,对二分类问题,当 P(w1|x)>P(w2|x) 时,更倾向于把 x 判为类别 w1 。 
  则得到误差概率如下: 
   P(error|x)={P(w1|x)P(w2|x)w2w1  
  我们希望平均误差概率最小, 
   P(error)=+P(error,x)dx=+P(error|x)p(x)dx  
  对任意的 x ,我们只要保证 P(error|x) 尽量地小,则 P(error) 则会尽量地小。 
  此时 P(error|x)=min[P(w1|x),P(w2|x)]  
  因此,得到了最小误差率下的贝叶斯决策准则:如果 P(w1|x)>P(w2|x) ,则判为 w1 ,否则判为 w2
  根据条件概率,可以将上式转换为 P(x|w)P(w) 的形式来描述:如果 P(x|w1)P(w1)>P(x|w2)P(w2) ,则判为 w1 ,否则判为 w2
  上式也可变为 p(x|w1)p(x|w2)>P(w2)P(w1) ,则判为 w1 ,否则判为 w2

最小风险准则

  考虑各种错误造成损失不同而提出的决策规则。 
  定义风险函数 λ(αi|wj) ,描述了类别状态为 wj 时,采取行为 αi d的风险。 
  定义某一样本 x 采取某行为 αi 时的风险(损失): 
   R(αi|x)=cj=1λ(αi|wj)P(wj|x)  
  则所有样本采取完某行为后的总风险: 
   R=R(α(x)|x)p(x)dx  
  要使得总风险最小,则需要每个样本采取的行为风险 R(α(x)|x) 最小。 
  贝叶斯决策规则:每个样本的行为风险最小。

极小化极大准则

  消除先验概率 P(wj) 的影响。先验概率取任意的值时,我们想办法使其总风险最坏的情况尽可能地小。在最差的添加下,争取最好的结果,使最大风险最小。 
  举例子:二分类问题。 
  设 λij=λ(αi|wj) ,表示实际类别为 wj 误判为 wi 时所引起的损失。 
   R=R1[λ11P(w1)p(x|w1)+λ12P(w2)p(x|w2)]dx+R2[λ21P(w1)p(x|w1)+λ22P(w2)p(x|w2)]dx
  将条件 P(w2)=1P(w1)  
  以及 R1p(x|w1)dx=1R2p(x|w1)dx 带入上式,整理得到: 
   R(P(w1))=λ22+(λ12λ22)R1p(x|w2)dx+P(w1)[(λ11λ22)+(λ21λ11)R2p(x|w1)dx(λ12λ22)R1p(x|w2)dx]
  上式表明,一旦判决边界 R1,R2 确定之后,总风险与 P(w1) 线性关系。如果能够找到抱一个边界使得 P(w1) 的比例系数为0,则总风险与先验概率相互独立,互不影响。 
  令 Rmm=λ22+(λ12λ22)R1p(x|w2)dx ,称其为极小化极大风险 
  简单地说,我们寻找使得贝叶斯风险最大的先验概率,相应的决策边界给出了极小化极大决策结果,因此极小化极大风险值 Rmm 等于最坏的贝叶斯风险。 
  极小化极大准则,常用于“博弈论”中。

Neyman-Pearson准则

  损失函数无法确定;先验概率 p(w) 未知,是一个确定的值;某一种错误较另一种错误更为重要。 
  需要用Lagrange乘子法求条件极值。 
  例如,在限定 w2 类错误率条件下,使 w1 类错误率最小, 
   minP1(e)  (对分类边界求最小) 
  s.t.  P2(e)=ε  
  用lagrange乘子法: 
   minL=P1(e)+λ(P2(e)ε)  
   minL=R2p(x|w1)dx+λ(R1p(x|w2)dxε)  
   minL=1R1p(x|w1)dx+λ(R1p(x|w2)dxε)  
   minL=(1λε)+R1[λp(x|w2)p(x|w1)]dx  
  为了求极值点, L 对边界 t λ 求偏导数,并令其为0. 
   Lt=0=>λ=p(t|w1)p(t|w2)  
   Lλ=0=>R1p(x|w2)dx  
  Neyman-Pearson决策准则: 
  若 p(x|w1)p(x|w2)>λ ,则判为 w1  
  若 p(x|w1)p(x|w2)<λ ,则判为 w2

分类器的设计

  基于最小误差概率的贝叶斯分类器 
   gi(x)=p(wi|x)  
   gi(x)=p(x|wi)p(wi)  
   gi(x)=logp(x|wi)+logp(wi)  
  基于最小总风险的贝叶斯分类器 
   gi(x)=R(αi|x)  
  多类别判别函数 maxj=1,2,...Cgj(x),j  
  若求解决策面, gi(x)=gj(x)

小结

  贝叶斯决策论是基于概率论的决策,根据不同决策准则,分别得到不同决策意义下的最优判断。

你可能感兴趣的:(机器学习)