Chapter1--------贝叶斯决策公式(Bayesian Decision Theory)
Example1:
学校里有男生 m 1 m_1 m1人,女生 m 2 m_2 m2人,男生身高175以上的有 n 1 n_1 n1人,女生中有 n 2 n_2 n2人.
概念——类别(Class):
w 1 w_1 w1: 为男生
w 2 w_2 w2: 为女生
x x x :175cm (height)
一:最小错误率贝叶斯决策(Minimum Error Rate Bayesian Decision)
先验概率: P ( w 1 ) = m 1 m 1 + m 2 P(w1)=\frac{m_1}{m_1+m_2} P(w1)=m1+m2m1 P ( w 2 ) = m 2 m 1 + m 2 P(w_2)=\frac{m_2}{m_1+m_2} P(w2)=m1+m2m2 且有 P ( w 1 ) + P ( w 2 ) = 1 ; P(w_1)+P(w_2)=1; P(w1)+P(w2)=1;
似然然概率: P ( x ∣ w 1 ) = n 1 m 1 , P ( x ∣ w 2 ) = n 2 m 2 ; P(x|w_1)=\frac{n_1}{m_1}, P(x|w_2)=\frac{n_2}{m_2}; P(x∣w1)=m1n1,P(x∣w2)=m2n2;
贝叶斯公式: P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) ; P(A|B)=\frac{P(A)P(B|A)}{P(B)}; P(A∣B)=P(B)P(A)P(B∣A);
故利用贝叶斯公式得到的后验概率为: P ( w i ∣ x ) = P ( w i ) P ( x ∣ w i ) P ( x ) , i = 1 , 2 ; P(w_i|x)=\frac{P(w_i)P(x|w_i)}{P(x)}, i=1,2; P(wi∣x)=P(x)P(wi)P(x∣wi),i=1,2;
并且满足: P ( w 1 ∣ x ) + P ( w 2 ∣ x ) = 1 ; P(w_1|x)+P(w_2|x)=1; P(w1∣x)+P(w2∣x)=1;
接下来进行分类工作,我们利用最小错误率贝叶斯决策来进行分类,分类方法为:
如果 P ( w 1 ∣ x ) > P ( w 2 ∣ x ) , P(w_1|x)>P(w_2|x), P(w1∣x)>P(w2∣x), 就将 x x x —> w 1 w_1 w1,即认为所有身高超过175的同学都是男生,如果 P ( w 2 ∣ x ) > P ( w 1 ∣ x ) , P(w_2|x)>P(w_1|x), P(w2∣x)>P(w1∣x), 就将 x x x—> w 2 w_2 w2,即认为所有身高超过175的同学为女生。
错误率分析:
当将 x x x —> w 1 w_1 w1时的错误率为: P ( e r r o r ∣ x ) = 1 − P ( w 1 ∣ x ) = P ( w 2 ∣ x ) ; P(error|x)=1-P(w_1|x)=P(w_2|x); P(error∣x)=1−P(w1∣x)=P(w2∣x);
当将 x x x —> w 2 w_2 w2时的错误率为: P ( e r r o r ∣ x ) = 1 − P ( w 2 ∣ x ) = P ( w 1 ∣ x ) ; P(error|x)=1-P(w_2|x)=P(w_1|x); P(error∣x)=1−P(w2∣x)=P(w1∣x);
根据分类原则可知, P ( w 1 ∣ x ) > P ( w 2 ∣ x ) , P(w_1|x)>P(w_2|x), P(w1∣x)>P(w2∣x), 就将 x x x —> w 1 , w_1, w1, 此时的错误率最小,反之则同理。
一般的:
当有多个类别时(muti-class): w 1 , w 2 , … , w n w_1,w_2,\ldots,w_n w1,w2,…,wn
如果 P ( w j ∣ x ) = max 1 ≤ i ≤ n P ( w i ∣ x ) P(w_j|x)=\max\limits_{1\leq i\leq n}P(w_i|x) P(wj∣x)=1≤i≤nmaxP(wi∣x), 则 x → w j x\to w_j x→wj
二:最小风险贝叶斯决策(Minimum Risk Bayesian Decision)
对于 c c c 个类别 { w 1 , w 2 , … , w c w_1,w_2,\ldots,w_c w1,w2,…,wc} ;
定义 { α 1 , α 2 , … , α c \alpha_1,\alpha_2,\ldots,\alpha_c α1,α2,…,αc} 为动作(Actions),其中动作 α i \alpha_i αi 表示 x → w i x\to w_i x→wi,特别的令 α c + 1 \alpha_{c+1} αc+1 表示 “不进行任何归类(Reject)”。
定义 λ ( α i ∣ w j ) \lambda(\alpha_i|w_j) λ(αi∣wj) 为当实际类别为 w j w_j wj 时,采取动作 α i \alpha_i αi 所导致的损失(loss)。
风险计算(Risk):
R ( α i ∣ x ) = ∑ j = 1 n λ ( α i ∣ w j ) P ( w j ∣ x ) , i = 1 , 2 , … , c R(\alpha_i|x) =\sum_{j=1}^n{\lambda(\alpha_i|w_j)}{P(w_j|x)} ,i=1,2,\ldots,c R(αi∣x)=j=1∑nλ(αi∣wj)P(wj∣x),i=1,2,…,c
如果
R ( α i ∣ x ) = min 1 ≤ j ≤ c R ( α j ∣ x ) R(\alpha_i|x)=\min\limits_{1\leq j\leq c}{R(\alpha_j|x)} R(αi∣x)=1≤j≤cminR(αj∣x)
则采取动作 α i \alpha_i αi, 即 x → w i x\to w_i x→wi.
需要注意的是,对于同一问题采用最小错误率贝叶斯决策和采用最小风险贝叶斯决策可能会得到不同的结果。