机器学习(二)——贝叶斯分类器

文章目录

  • 1. 贝叶斯决策论
    • 1.1 贝叶斯判定准则
    • 1.2 极大似然估计
  • 2. 朴素贝叶斯分类器
    • 2.1 拉普拉斯平滑
    • 2.2 示例

1. 贝叶斯决策论

核心: 将最小化分类错误率转换为最大化先验概率和类条件概率(似然)的乘积。

1.1 贝叶斯判定准则

(1)期望损失 R ( c i ∣ x ) R(c_i|x) R(cix)
假设有N种可能的类别标记,即 γ = { c 1 , c 2 , ⋯   , c N } \gamma=\{c_1,c_2,\cdots,c_N \} γ={c1,c2,,cN} λ i j \lambda_{ij} λij是将真实标记为 c j c_j cj的样本误分类为 c i c_i ci所产生的损失。基于后验概率 P ( c i ∣ x ) P(c_i|x) P(cix)可获得将样本x分类为 c i c_i ci所产生的期望损失:
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|x) = \sum_{j=1}^N \lambda_{ij}P(c_j|x) R(cix)=j=1NλijP(cjx)

(2)最小条件风险的类别标记 h ∗ ( x ) h^*(x) h(x)
根据贝叶斯判定准则:为最小化总体风险,需要每个样本选择使条件风险最小的类别标记。
h ∗ ( x ) = arg ⁡ min ⁡ c ∈ γ R ( c ∣ x ) h^*(x)=\arg \min_{c \in \gamma} R(c|x) h(x)=argcγminR(cx)

(3)最小化分类错误率的贝叶斯最优分类器
机器学习(二)——贝叶斯分类器_第1张图片
此时条件风险以及最优分类器为:
R ( c ∣ x ) = 1 − P ( c ∣ x ) h ∗ ( x ) = arg ⁡ max ⁡ c ∈ γ P ( c ∣ x ) R(c|x)=1-P(c|x) \\ h^*(x)=\arg \max_{c \in \gamma}P(c|x) R(cx)=1P(cx)h(x)=argcγmaxP(cx)

因此问题转换为了基于有限的训练样本集尽可能准确地估计后验概率 P ( c ∣ x ) P(c|x) P(cx)。求最小化条件风险即最大化后验概率。
因此可以采用生成式模型,考虑到贝叶斯定理:
p ( c ∣ x ) = p ( x ∣ c ) p ( c ) p ( x ) p(c|x) = \frac{p(x|c)p(c)}{p(x)} p(cx)=p(x)p(xc)p(c)

其中, P ( c ) P(c) P(c)是类先验概率; P ( x ∣ c ) P(x|c) P(xc)是样本相对于类标记c的类条件概率,也称似然(likelihood)。最大化后验概率即最大化先验概率和似然的乘积。

理解:
①利用 λ \lambda λ取值,将条件风险转化为了后验概率 P ( c ∣ x ) P(c|x) P(cx)
②基于贝叶斯准则,我们将后验概率转化为了如何利用训练数据集估计先验概率 P ( c ) P(c) P(c)和似然 P ( x ∣ c ) P(x|c) P(xc)
(条件风险 --> 后验概率 --> 先验概率和似然)

  • 根据大数定律,当训练集样本包含充足的独立同分布样本时, P ( c ) P(c) P(c)可通过各类样本出现的概率进行估计。
  • 直接使用概率估计 P ( x ∣ c ) P(x|c) P(xc)是不行的,因为现实应用中,很多样本取值在训练集中根本没有出现。因此“未被观察到”不能等效为“出现概率为0”.

1.2 极大似然估计

(1)常用策略
假设 P ( x ∣ c ) P(x|c) P(xc)具有确定的形式并且被参数向量 θ c \theta_c θc唯一确定,我们将 P ( x ∣ c ) P(x|c) P(xc)标记位 P ( x ∣ θ c ) P(x|\theta_c) P(xθc)

极大似然估计(MLE)采用频率主义学派的方法,通过优化似然函数确定参数值。

(2)公式
机器学习(二)——贝叶斯分类器_第2张图片
为了防止连乘操作造成下溢,使用对数似然(log-likelihood)
L L ( θ c ) = ∑ x ∈ D c log ⁡ P ( x ∣ θ c ) LL(\theta_c) = \sum_{x \in D_c}\log P(x|\theta_c) LL(θc)=xDclogP(xθc)

此时参数 θ c \theta_c θc的极大似然估计为:
θ c ^ = arg ⁡ max ⁡ θ c L L ( θ c ) \hat{\theta_c} = \arg \max_{\theta_c} LL(\theta_c) θc^=argθcmaxLL(θc)

(3)优缺点

  • 通过参数化的方法使类条件概率估计变得简单
  • 准确度严重依赖于假设分布形式是否符合潜在的真实数据分布。

2. 朴素贝叶斯分类器

  • 基于1.1的贝叶斯准则,将条件风险转化为了先验概率和似然。
  • 又基于1.2极大似然估计获得了通过优化似然函数得到极大似然估计的方法。
  • 采用“属性条件独立性假设”:假设每个属性独立地对分类结果发生影响。

(1)贝叶斯分类器
基于属性条件独立性假设和贝叶斯准则,可得:
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 d P ( x i ∣ c ) P(c|x) = \frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)} \prod_{i=1}^d P(x_i|c) P(cx)=P(x)P(c)P(xc)=P(x)P(c)i=1dP(xic)

为了获得最大化后验概率,根据极大似然估计可得:
h n b ( x ) = arg ⁡ max ⁡ c ∈ γ P ( c ) ∏ i = 1 d P ( x i ∣ c ) h_{nb}(x) = \arg \max_{c \in \gamma} P(c)\prod_{i=1}^d P(x_i|c) hnb(x)=argcγmaxP(c)i=1dP(xic)

其中 ∏ i = 1 d P ( x i ∣ c ) \prod_{i=1}^d P(x_i|c) i=1dP(xic)可以通过训练集样本分布获得,先验概率 P ( c ) P(c) P(c)

  • 离散属性:
    机器学习(二)——贝叶斯分类器_第3张图片
  • 连续属性:
    机器学习(二)——贝叶斯分类器_第4张图片

2.1 拉普拉斯平滑

目的
为了避免其他属性携带的信息被训练集中未出现的属性抹去,在估计概率是通常进行平滑。

举例: 假设可以通过8个属性判断西瓜好坏。假设对于一个样本,其中7个属性都指向该西瓜为好瓜。但最后一个属性不在训练集中出现,统计概率为0.这很可能不符合实际预期。

公式:
令N表示训练集可能类别数(标签数), N i N_i Ni表示第i个属性可能的取指数,则拉普拉斯修正为:
P ^ ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N P ^ ( x i ∣ c ) = ∣ D c , x i + 1 ∣ ∣ D c ∣ + N i \hat{P}(c) = \frac{|D_c|+1}{|D|+N} \\ \hat{P}(x_i|c) = \frac{|D_{c,x_i}+1|}{|D_c|+N_i} P^(c)=D+NDc+1P^(xic)=Dc+NiDc,xi+1

2.2 示例

Step1:训练样本机器学习(二)——贝叶斯分类器_第5张图片
Step2:计算 P ( x i ∣ c ) P(x_i|c) P(xic)的概率(未发生平滑)机器学习(二)——贝叶斯分类器_第6张图片
Step2:考虑拉普拉斯修正后,计算 P ( x i ∣ c ) P(x_i|c) P(xic)的概率
机器学习(二)——贝叶斯分类器_第7张图片
Step3:利用极大似然估计求解,并获得属性划分机器学习(二)——贝叶斯分类器_第8张图片
由于P(好瓜)>P(坏瓜),因此将样本判定为好瓜。

你可能感兴趣的:(机器学习与大数据分析,机器学习,概率论,人工智能)