设A,B为任意事件, P ( A , B ) = P ( A ∣ B ) ∗ P ( B ) = P ( B ∣ A ) ∗ P ( A ) P(A,B) = P(A|B)*P(B)=P(B|A)*P(A) P(A,B)=P(A∣B)∗P(B)=P(B∣A)∗P(A)
设 A 1 , A 2 , … , A n A_1,A_2,…,A_n A1,A2,…,An两两互不相容,且 B B B的发生总是与 A 1 , A 2 , … , A n A_1, A_2,…,A_n A1,A2,…,An之一同时发生,则对于事件 B B B,有:
P ( B ) = ∑ k − 1 n P ( A k ) P ( B ∣ A k ) P(B) = \sum_{k-1}^nP(A_k)P(B|A_k) P(B)=∑k−1nP(Ak)P(B∣Ak)
知因求果
P ( A k ∣ B ) = P ( A k B ) P ( B ) = P ( A k ) P ( B ∣ A k ) ∑ i − 1 n P ( A i ) P ( B ∣ A i ) P(A_k|B)=\frac{P(A_kB)}{P(B)}=\frac{P(A_k)P(B|A_k)}{\sum_{i-1}^{n}P(A_i)P(B|A_i)} P(Ak∣B)=P(B)P(AkB)=∑i−1nP(Ai)P(B∣Ai)P(Ak)P(B∣Ak)
贝叶斯公式给出了“结果”事件B已经发生的条件下,“原因”事件A的条件概率,对结果的任何观测都将增加我们对原因事件A的真正分布的知识。
是机器学习/模式分类问题的基本理论之一
用概率统计的观点和方法(基于贝叶斯公式)来解决模式识别问题
分类问题
给定:m个类、已知类别属性的训练样本和未知类别属性的输入数据
目标:确定每一个输入数据的类别属性
已知条件:
–类别数一定(决策论中把类别也称为状态) ω i , i = 1 , 2 , … , c ω_i ,i= 1,2,…,c ωi,i=1,2,…,c
–已知各类在这d维特征空间的统计分布
各类别 ω i ω_i ωi i = 1 , 2 , … , c i= 1,2,…,c i=1,2,…,c的先验概率 P ( x ∣ ω i ) P(x|ω_i) P(x∣ωi), i= 1,2,…,c
决策:根据贝叶斯公式计算后验概率 P ( ω i ∣ x ) P(ω_i|x) P(ωi∣x) ,基于最大后验概率进行判决
• 样本(sample) x ∈ R d x \in R^d x∈Rd
• 类别/状态(class/state) w i w_i wi
• 先验概率(a priori probability or prior) P ( w i ) P(w_i) P(wi)
• 样本分布密度(sample distribution density) p ( x ) p(x) p(x)
• 类条件概率密度(class-conditional probabilitydensity) p ( x ∣ w i ) p(x|w_i) p(x∣wi)
• 后验概率(a posteriori probability or posterior ) p ( w i ∣ x ) p(w_i|x) p(wi∣x)
• 错误概率(probability of error):
• 平均错误率(average probability of error) P ( e ) = ∫ P ( e ∣ x ) p ( x ) d x P(e) = \int P(e|x)p(x)dx P(e)=∫P(e∣x)p(x)dx
• 正确率(probability of correctness) P ( c ) P(c) P(c)
P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) P ( x ) = P ( x ∣ w i ) P ( w i ) ∑ i c P ( x ∣ w i ) P ( w i ) P(w_i|x)=\frac{P(x|w_i)P(w_i)}{P(x)}=\frac{P(x|w_i)P(w_i)}{\sum_{i}^{c}P(x|w_i)P(w_i)} P(wi∣x)=P(x)P(x∣wi)P(wi)=∑icP(x∣wi)P(wi)P(x∣wi)P(wi)
先验概率:由以往历史数据得到的概率
后验概率:利用最新输入数据对先验概率加以修正后的概率
以最大后验概率为判决函数(样本在哪个类别概率大就属于哪个类别)
m i n P ( e ) = ∫ P ( e ∣ x ) p ( x ) d x min \ \ P(e)=\int P(e|x)p(x)dx min P(e)=∫P(e∣x)p(x)dx
不同的决策具有不同的风险或损失。
比如医疗诊断为例:没病判为有病:精神负担、可进一步检查,损失不大。有病判为没病:贻误病情,后果严重。
最小错误率贝叶斯决策以错误率最小为准则,未考虑决策的风险
根据最小错误率贝叶斯决策的问题进行改进
损失函数:对于特定的x采取决策 α \alpha α的期望损失 λ ( α i , w j ) \lambda(\alpha_i,w_j) λ(αi,wj)
R ( α i ∣ x ) = E [ λ ( α i , w j ) ] = ∑ j = 1 c λ ( α i , w j ) p ( w j ∣ x ) R(\alpha_i|x)=E[\lambda(\alpha_i,w_j)]=\sum_{j=1}^{c}\lambda(\alpha_i,w_j)p(w_j|x) R(αi∣x)=E[λ(αi,wj)]=∑j=1cλ(αi,wj)p(wj∣x)
对所有可能的x采取决策 α ( x ) \alpha(x) α(x)所造成的期望损失之和
R ( α ) = ∫ R ( α ∣ x ) p ( x ) d x R(\alpha)=\int R(\alpha|x)p(x)dx R(α)=∫R(α∣x)p(x)dx
m i n R ( α ) = ∫ R ( α ∣ x ) p ( x ) d x min \ \ \ R(\alpha)=\int R(\alpha|x)p(x)dx min R(α)=∫R(α∣x)p(x)dx
若对每一个决策,都使其条件风险 R ( α i ∣ x ) R(\alpha_i|x) R(αi∣x)最小,则对所有 x 做出决策时,其期望风险 R 也最小
如果 R ( α k ∣ x ) = m i n R ( α i ∣ x ) R(\alpha_k|x) = min \ \ R(\alpha_i|x) R(αk∣x)=min R(αi∣x) ,则 α = α k \alpha = \alpha_k α=αk
贝叶斯决策的问题:类条件概率 P ( x ∣ ω i ) P(x|ω_i) P(x∣ωi) 是所有属性上的联合概率,难以从有限的训练样本直接估计得到。
因此需要用朴素贝叶斯决策
属性条件独立性假设:对于已知类别,假设所有属性相互独立;即假设各属性独立地对分类结果发生影响,
P ( X ∣ w ) = P ( x 1 , x 2 , x 3 , x 4 , . . . , x d ∣ w ) = Π i = 1 d P ( x i ∣ w ) P(X|w) = P(x_1,x_2,x_3,x_4,...,x_d|w)=Π_{i=1}^dP(x_i|w) P(X∣w)=P(x1,x2,x3,x4,...,xd∣w)=Πi=1dP(xi∣w)