西瓜书笔记之贝叶斯分类器

贝叶斯决策论

贝叶斯决策是基于相关已知概率和误判损失来选择最优的类别。

最小风险决策

决策类别空间 C = { c 1 , c 2 , . . . , c N } C=\{c_{1},c_{2},...,c_{N}\} C={c1,c2,...,cN},样本为 x x x

  • 决策代价
    λ i j \lambda_{ij} λij是将真实标记为为 c j c_{j} cj的样本误分为 c i c_{i} ci所产生的损失。
  • 条件风险
    基于后验概率 p ( c i / x ) p(c_{i}/x) p(ci/x)可获得将样本 x x x分类为 c i c_{i} ci所产生的期望损失,即在样本 x x x上的条件风险
    R ( c i / x ) = ∑ j = 1 N λ i j p ( c i / x )        ( 1 ) R(c_{i}/x)=\sum_{j=1}^{N}\lambda_{ij}p(c_{i}/x)\ \ \ \ \ \ (1) R(ci/x)=j=1Nλijp(ci/x)      (1)
  • 判定准则
    寻找一个判定准则使得样本对应类别空间具有最小化总体风险
    R ( h ) = E x [ R ( h ( x ) / x ) ]        ( 2 ) R(h)=E_{x}[R(h(x)/x)]\ \ \ \ \ \ (2) R(h)=Ex[R(h(x)/x)]      (2)
    显然对每个样本 x x x,若 h h h能最小化条件风险 R ( h ( x ) / x ) R(h(x)/x) R(h(x)/x),则总体风险 R ( h ) R(h) R(h)也将被最小化。于是,有了贝叶斯判定准则:为最小化总体风险,只需要在每个样本上选择哪个能使条件风险 R ( h ( x ) / x ) R(h(x)/x) R(h(x)/x)最小的类别标记。即
    h ∗ = a r g min ⁡ c ∈ C R ( c / x )        ( 3 ) h^{*}=arg \min _{c\in C}R(c/x)\ \ \ \ \ \ (3) h=argcCminR(c/x)      (3)
    h ∗ h^{*} h为贝叶斯最优分类器,与之对应的 R ( h ∗ ) R(h^{*}) R(h)称为贝叶斯风险。 1 − R ( h ∗ ) 1-R(h^{*}) 1R(h)反映了分类器能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。

伯努利——最大化后验概率

二分类问题的条件风险即为分类错误率,即 λ i j = ( i = = j ) ? 1 : 0 \lambda_{ij}=(i==j) ?1:0 λij=(i==j)?1:0,式(1)条件风险可化为 R ( c / x ) = 1 − p ( c / x )        ( 4 ) R(c/x)=1-p(c/x)\ \ \ \ \ \ (4) R(c/x)=1p(c/x)      (4)
则贝叶斯最优分类器为
h ∗ = a r g max ⁡ c ∈ C p ( c / x )        ( 5 ) h^{*}=arg \max _{c\in C}p(c/x)\ \ \ \ \ \ (5) h=argcCmaxp(c/x)      (5)
即最大化样本的后验概率。鉴于后验概率实际中难以直接获得,衍生了生成模式和判别模式这两种策略。生成模式:对联合概率 p ( x , c ) p(x,c) p(x,c)进行建模,然后再获得后验概率 p ( c / x ) p(c/x) p(c/x);判别模型:直接建模后验概率 p ( c / x ) p(c/x) p(c/x),如决策树、神经网络、SVM等。
基于贝叶斯定力,后验概率可由先验概率 p ( c ) p(c) p(c)和似然概率 p ( x / c ) p(x/c) p(x/c)获取
p ( c / x ) = p ( c ) p ( x / c ) p ( x )        ( 6 ) p(c/x)=\frac{p(c)p(x/c)}{p(x)}\ \ \ \ \ \ (6) p(c/x)=p(x)p(c)p(x/c)      (6)
很多样本取值再训练集中根本没有出现,直接使用频率来估计似然概率 p ( x / c ) p(x/c) p(x/c)显然不可行,因为“未被观测到”与“出现概率为零”通常是不同的。

实际应用——极大似然估计(MLE)

概率模型的训练过程就是参数估计过程。
D c D_{c} Dc表示训练集 D D D中第 c c c类样本组成的集合,假设这些样本是独立同分布的,则参数 θ c \theta _{c} θc对于数据集 D c D_{c} Dc的似然是
p ( D c / θ c ) = ∏ p ( x / θ c )        ( 7 ) p(D_{c}/\theta_{c})=\prod p(x/\theta_{c})\ \ \ \ \ \ (7) p(Dc/θc)=p(x/θc)      (7)
即极大似然估计是试图在 θ c \theta_{c} θc所有可能的取值中,找到一个能使数据出现的”可能性“最大的值。
防止计算下溢,通常取对数似然。

人话……
已知:随机事件的概率分布函数
操作:根据样本估计未知的参数——即在确定的结果下,推测产生这个结果的可能参数,根据已发生的结果来估计事件的本身性质
思想:假设样本是在参数的基础上采样的,则N次采样的联合概率分布可以记为 p ( x 1 , x 2 , . . . , x N / θ ) p(x_{1},x_{2},...,x_{N}/\theta) p(x1,x2,...,xN/θ),最有可能的值就是 x x x发生的联合概率最大的值,假设每次抽取独立同分布,那么联合概率可以转为连乘形式。

朴素贝叶斯分类器

假设每个属性独立地对分类结果发生影响,则式(6)可转为
p ( c / x ) = p ( c ) p ( x / c ) p ( x ) = p ( c ) p ( x ) ∏ i = 1 D p ( x i / c )        ( 8 ) p(c/x)=\frac{p(c)p(x/c)}{p(x)}=\frac{p(c)}{p(x)}\prod_{i=1}^{D}p(x_{i}/c) \ \ \ \ \ \ (8) p(c/x)=p(x)p(c)p(x/c)=p(x)p(c)i=1Dp(xi/c)      (8)
则朴素贝叶斯分类器的表达式为
h n b ( x ) = a r g max ⁡ p ( c ) ∏ i = 1 D p ( x i / c )       ( 9 ) h_{nb}(x)=arg \max p(c)\prod_{i=1}^{D}p(x_{i}/c)\ \ \ \ \ (9) hnb(x)=argmaxp(c)i=1Dp(xi/c)     (9)
即朴素贝叶斯分类器的训练过程就是基于训练集来估计类先验概率 p ( c ) p(c) p(c),并为每个属性估计条件概率 p ( x i / c ) p(x_{i}/c) p(xi/c)
p ( c ) = ∣ D c ∣ ∣ D ∣     p ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D ∣       ( 10 ) p(c)=\frac{|D_{c}|}{|D|}\ \ \ p(x_{i}|c)=\frac{|D_{c,x_i}|}{|D|}\ \ \ \ \ (10) p(c)=DDc   p(xic)=DDc,xi     (10)
简单的用频率来表示概率,成也萧何,败也萧何~~
拉普拉斯修正——避免其他属性携带的信息被训练集中未出现的属性值”抹去“,在估计概率值时进行”平滑“,考虑未观测到的值。
p ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N     p ( x i ∣ c ) = ∣ D c , x i ∣ + 1 ∣ D ∣ + N i       ( 11 ) p(c)=\frac{|D_{c}|+1}{|D|+N}\ \ \ p(x_{i}|c)=\frac{|D_{c,x_i}|+1}{|D|+N_{i}}\ \ \ \ \ (11) p(c)=D+NDc+1   p(xic)=D+NiDc,xi+1     (11)

你可能感兴趣的:(西瓜书笔记)