决策理论

决策理论:最小错误率和最小期望误差

  • 最小错误率

    这里是对分类问题而言的,现在考虑二分问题,对于一个输入向量,出现错误的情况是,真是标签是 C 1 C_1 C1的被分到 C 2 C_2 C2上,反之亦然。因为真是标签不知道,所以我们用概率来表达:
    KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ p(mistake) &=p…
    ( 1 ) (1) (1)中, R i R_i Ri意思是将 x \bold x x分到 C i C_i Ci上的区域,并不是说积分区域是 R i R_i Ri,积分区域实际就是输入向量 x \bold x x

    我们的决策理论是:选择最大后验概率最大的!

    可以通过下面的方式进行论证:
    (2) i f : p ( x , C 1 ) > P ( x , C 2 ) if: \hspace 1cm {p(\bold x,C_1)>P(\bold x,C_2)} \tag 2 if:p(x,C1)>P(x,C2)(2)
    那么我们就将一个输入向量 x \bold x x分配到 C 1 C_1 C1中,此时:
    KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ p(mistake) &=p…
    同样,当 x ​ \bold x​ x分配到 C 2 ​ C_2​ C2中时, p ( m i s t a k e ) = ∫ R 2 p ( x , C 1 ) d x ​ p(mistake)=\int_{R_2}p(\bold x, C_1)d\bold x​ p(mistake)=R2p(x,C1)dx,由于积分区域相同,都是输入向量 x ​ \bold x​ x ,显然,选择分配到 C 1 ​ C_1​ C1时误差率更小。那为什么是最大后验概率呢?这是因为 p ( x , C i ) = p ( C i / x ) p ( x ) ​ p(\bold x,C_i )=p(C_i/\bold x)p(\bold x)​ p(x,Ci)=p(Ci/x)p(x),即对于不同的 C i ​ C_i​ Ci p ( x ) ​ p(\bold x)​ p(x)是相同的,所以 p ( x , C 1 ) > P ( x , C 2 ) ​ p(\bold x,C_1)>P(\bold x,C_2)​ p(x,C1)>P(x,C2)等价于 p ( C 1 / x ) > P ( C 2 / x ) ​ p(C_1/\bold x)>P(C_2/\bold x)​ p(C1/x)>P(C2/x)

  • 最小期望误差

    对于一些分类问题,不同分错情况的影响结果是不同的,比如得癌症被判为正常,和正常被判为癌症,结果完全不同,前者可能没有得到及时治疗而死亡,后者可能影响不大,或者后续的检测可以检测出正常。通过一个惩罚函数,对某一种错分施加较大的惩罚,是的学习完成后,使得这种错分情况变得比其他情况要小,这样的学习才更有意义。

    对于一个输入,其真是的输出我们是不知道的,可以用联合概率来表达: p ( x , C ) p(\bold x,C) p(x,C),每一种可能的真实输出都对应一个损失,我们用期望损失来表达整体的损失:
    E ( L ) = ∑ i ∑ j ∫ R j L i j P ( x , C i ) d x \mathbb E(L) = \sum_i\sum_j\int_{R_j} L_{ij}P(\bold{x},C_i)d\bold{x} E(L)=ijRjLijP(x,Ci)dx
    由于联合概率 p ( x , C ) ​ p(\bold {x},C)​ p(x,C)是未知的,所以我们用训练集(样本)来估计期望损失,也就是用经验损失来估计期望损失,然后优化经验损失函数。其具体过程在这里叙述一下:对于训练集 { ( x 1 , y 1 ) , . . . ( x N , y N ) } ​ \left \{ (x_1,y_1),...(x_N,y_N) \right \}​ {(x1,y1),...(xN,yN)},对每一个输入 x i ​ x_i​ xi,通过建模都可以预测出一个 f ( x i ) ​ f(x_i)​ f(xi),其经验损失就是 L ( y i , f ( x i ) ) P ^ d a t a ( x ∈ f ( x i ) , y i ) = 1 N L ( y i , f ( x i ) ) ​ L(y_i,f(x_i))\widehat P_{data}(x\in f(x_i),y_i)=\frac 1 N L(y_i,f(x_i))​ L(yi,f(xi))P data(xf(xi),yi)=N1L(yi,f(xi)),所以整个训练集的经验损失就是 1 N ∑ i N L ( y i , f ( x i ) ) ​ \frac 1 N \sum_i^N {L(y_i,f(x_i))}​ N1iNL(yi,f(xi))

    那么决策阶段,也就是对一个新的输入应该指定一个类的依据是什么呢?我们的决策是,将其分类到这样一个类 R j ​ R_j​ Rj中,使得其损失函数最小,也就是下面的:
    KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ R_{opt} &=\arg…

上面式子中对任意类别 C i ​ C_i​ Ci P ( x ) ​ P(\bold x)​ P(x)是常值,这是因为 P ( x ) ​ P(\bold x)​ P(x)就是输入特征的概率密度,与 C i ​ C_i​ Ci无关。可以看到最有化决策是:

对于一个新的输入,将其分为 C j C_j Cj类,该类使得 ∑ i L i j P ( C i / x ) \sum_i L_{ij}P(C_i/\bold x) iLijP(Ci/x)成立!

  • 最小错误率和最小期望误差的联系

    考虑二分问题,当损失函数是 0 − 1 0-1 01损失时,这两个是相同的,具体分析见李航《统计学习方法》中第4章朴素贝叶斯方法:后验概率最大化的含义。

你可能感兴趣的:(机器学习,prml)