《机器学习》之 贝叶斯分类器原理

文章目录

    • 1.贝叶斯学派
      • 1.1贝叶斯学派和频率学派
      • 1.2贝叶斯决策论
    • 2.参数估计
      • 2.1极大似然估计
    • 3.朴素贝叶斯分类器
    • 4.半朴素贝叶斯分类器
      • 4.1半朴素贝叶斯分类器
      • 4.2选择贝叶斯分类器
      • 4.3树增广朴素贝叶斯分类器
      • 4.4平均独依赖估测器
      • 4.5加权平均独依赖估测器
    • 5.贝叶斯网
      • 5.1贝叶斯网络 B(G,P)
      • 5.2利用条件独立降低计算复杂度
      • 5.3贝叶斯网对应的“分布”

1.贝叶斯学派

贝叶斯决策论是在概率框架下进行决策的基本方法之一,更是统计模式识别的主要方法之一。

1.1贝叶斯学派和频率学派

贝叶斯学派强调概率的“主观性”,这一点和传统的,我们比较熟悉的频率学派有所不同

  1. 频率学派强调频率的自然属性,认为应该使用频率作为概率的估计
  2. 贝叶斯学派认为随机性的根源不在于事件,而在于观察者

1.2贝叶斯决策论

在知道贝叶斯学派之后,就可以介绍贝叶斯决策论了
对于分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何将基于这些概率和误判损失来选择最优的类别标记

  1. 假设有N种可能的类别标记,即Y={c1,c2,…,cn},λij是将一个真实标记为cj的样本误分类为ci所产生的损失。基于后验概率P(ci |x)可获得将样本x分类为ci的期望损失,即风险
    《机器学习》之 贝叶斯分类器原理_第1张图片
    我们的任务是寻找一个判定准则 h:X–>Y 以最小化总体风险
    **R(h)=Ex[R(h(x)|x)]R(h)=Ex[R(h(x)|x)]**

显然,对每个样本x,若h能最小化条件风险R(h(x)|x)R(h(x)|x),则总体风险R(h)也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule):
为最小化总体风险,只需在每个样本上选择哪个能使条件风险R(c|x)R(c|x)最小化的类别标记,即:
**h∗=argminc∈YR(c|x)h∗=argminc∈Y⁡R(c|x)**

此时h∗成为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险R(h∗)称为贝叶斯风险,1−R(h∗)反映了分类器能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
误判损失λij为0-1损失函数
即对每个样本x,选择能使后验概率P(c|x)最大的类别标记

后验概率最大化的意义
若我们的问题为分类问题,则可以有:
《机器学习》之 贝叶斯分类器原理_第2张图片
此时条件风险为
R(c|x)=1−P(c|x)R(c|x)=1−P(c|x)

于是,最小化分类错误率的贝叶斯最优分类器为
h∗(x)=argmaxc∈YP(c|x)h∗(x)=argmaxc∈Y⁡P(c|x)

所以我们可以看出后验概率最大化就是期望风险最小化。这里我们用了期望风险这个词,其实和上面的条件风险是一个东西。

不然看出我们要解决后延概率P(c|x)P(c|x),判别模型就是对P(c|x)P(c|x)直接建模。如前面的决策树、BP神经网络、支持向量机等,都可以归入判别方法。对于生成模型,我们考虑:
《机器学习》之 贝叶斯分类器原理_第3张图片

其中,P(c)是类“先验”(prior)概率;P(x|c)是样本x相对于类标记c的类条件概率(class-conditional probality),或者成为“似然”(likelihood);P(x)是用于归一化的“证据”(evidence)因子。对于给定样本,p(x)与类标记无关,因此估计p(c|x)的问题就转化为如何基于训练样本数据D来估计先验概率P(c)和似然P(x|c)。

2.参数估计

无论是贝叶斯学派还是频率学派,一个无法避开的问题就是如何从已知样本中获取信息并据此估计模型参数。
比较有名的是基于大数定律的“频率近似概率”

2.1极大似然估计

估计类条件概率的一种常见策略是先假定其具有某种确定的概率分布形式,在基于训练样本对概率分布的参数进行估计。
具体的,记关于类别c的列条件概率为P(x|c),假设P(x|c)具有确定形式并且被参数向量θc唯一确定,则我们的任务就是利用训练集D估计参数θc. 为明确起见,我们将P(x|c)记为P(x|θc)

极大似然估计源于频率学派,是根据数据采样来估计概率分布参数的经典方法
**重要前提:**训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。
《机器学习》之 贝叶斯分类器原理_第4张图片
(图片来自网络)
《机器学习》之 贝叶斯分类器原理_第5张图片
《机器学习》之 贝叶斯分类器原理_第6张图片
(图片来自网络)
总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:
在这里插入图片描述
似然函数(linkehood function):联合概率密度函数在这里插入图片描述称为相对于在这里插入图片描述的θ的似然函数。在这里插入图片描述
如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:《机器学习》之 贝叶斯分类器原理_第7张图片
求解极大似然函数
ML估计:求使得出现该组样本的概率最大的θ值。

在这里插入图片描述

实际中为了便于分析,定义了对数似然函数:
在这里插入图片描述
在这里插入图片描述

  1. 未知参数只有一个(θ为标量)

    在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:

在这里插入图片描述

2.未知参数有多个(θ为向量)
则θ可表示为具有S个分量的未知向量:
在这里插入图片描述

记梯度算子:
在这里插入图片描述

若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。

在这里插入图片描述

方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。

3.朴素贝叶斯分类器

《机器学习》之 贝叶斯分类器原理_第8张图片
《机器学习》之 贝叶斯分类器原理_第9张图片
《机器学习》之 贝叶斯分类器原理_第10张图片
《机器学习》之 贝叶斯分类器原理_第11张图片
《机器学习》之 贝叶斯分类器原理_第12张图片
《机器学习》之 贝叶斯分类器原理_第13张图片
《机器学习》之 贝叶斯分类器原理_第14张图片
《机器学习》之 贝叶斯分类器原理_第15张图片
《机器学习》之 贝叶斯分类器原理_第16张图片
《机器学习》之 贝叶斯分类器原理_第17张图片
在现实任务中朴素贝叶斯分类器有多种使用方式,例如,如果对预测速度要求较高,则对规定训练集,可将朴素贝叶斯分类器设计的所有概率估计值事先计算好存储起来,这样在进行预测时只需“查表”即可进行判别;若任务数据更替频繁,则可进行“懒惰学习”方式,先不进行任何训练,待收到预测请求时再根据当前数据集进行概率估计;若数据不断增加,则可在现有估值基础上,仅对新增样本而属性所涉及的概率估值进行计数修正即可实现增量学习

4.半朴素贝叶斯分类器

由于在朴素贝叶斯分类器中的假设 属性条件独立性假设 往往很难成立,于是产生了“半朴素贝叶斯分类器”
半朴素贝叶斯分类器的基本思想是适当考虑一部分属性之间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。
**独依赖估计(One-Dependent Estimator 简称ODE)**是半朴素贝叶斯分类器最常用的一种策略,所谓独依赖,就是假设每个属性在类别之外最多仅依赖于一个其他属性,即
在这里插入图片描述
其中pai为xi的父属性,根据确定父属性方法的不同,可以分为:
《机器学习》之 贝叶斯分类器原理_第18张图片

4.1半朴素贝叶斯分类器

《机器学习》之 贝叶斯分类器原理_第19张图片

4.2选择贝叶斯分类器

《机器学习》之 贝叶斯分类器原理_第20张图片

4.3树增广朴素贝叶斯分类器

《机器学习》之 贝叶斯分类器原理_第21张图片

4.4平均独依赖估测器

《机器学习》之 贝叶斯分类器原理_第22张图片《机器学习》之 贝叶斯分类器原理_第23张图片

4.5加权平均独依赖估测器

《机器学习》之 贝叶斯分类器原理_第24张图片

5.贝叶斯网

贝叶斯网亦称“信念网”,它借助有向无环图(简称 DAG)来刻画属性之间的依赖关系,并使用条件概率表(简称CPT)来描述属性的联合概率分布

贝叶斯网中三个变量之间的典型依赖关系
《机器学习》之 贝叶斯分类器原理_第25张图片

5.1贝叶斯网络 B(G,P)

G:有向无环图 (Directed Acyclic Graph)
P:条件概率表(Conditional Probability Table)
节点——代表随机变量
有向边——代表节点间的(因果/依赖)关系,且存在条件概率表达这种关系的强度
每个节点有一个概率分布:非根节点->条件概率;没有父节点的根节点->先验概率

5.2利用条件独立降低计算复杂度

有向分离法(D-separation)
在V型结构(汇合连接)两个父节点间加上一条无向边
将所有有向边改为无向边
有向分离:将变量集合{ zi }去掉后,x与y不连通,则在{ zi }一定的情况下,x与y相互独立

《机器学习》之 贝叶斯分类器原理_第26张图片

5.3贝叶斯网对应的“分布”

贝叶斯网络对应的“分布”是一种合法的概率分布(legal distribution),也即需满足Pi≥0

:显然成立∑Pi=1
需要证明,比如这样一个简单的例子,应用链式法则(chain rule),展开得:
《机器学习》之 贝叶斯分类器原理_第27张图片
(图片来自网络)
∑LP(L|S)=1,这是 CPD(conditional probability distribution)的性质(也即对条件概率分布的一行进行求和);

参考:

  • 周志华《机器学习》
  • 清华大学 《机器学习》

你可能感兴趣的:(机器学习模型)