机器学习——贝叶斯分类器

以下理论都是基于西瓜书中对贝叶斯分类器章节的个人理解与整理,如果有问题,也欢迎大家一起进行讨论。

一、贝叶斯决策论

        对于贝叶斯决策论而言,我们希望可以得到一个使总体风险最小化的决策。那么对于风险R的定义,有如下公式表示:

R(c_i|x) = \sum_{j=1}^{N}(\lambda _{ij}P(c_j|x))

公式样本x被分类成c_i的条件风险,而\lambda_{ij}表示真实标记为c_j的输入样本x被误分类成c_i的损失,P(c_j|x)表示后验概率,N是输入样本总数。那么贝叶斯分类器的优化目标就是使条件风险最小化。

        在这样一种情况下,如何获取后验概率P(c|x)即是机器学习模型需要学习到的东西。一般来说,这里有两种获取模式。第一种是判别式模型直接得到(BP神经网络、SVM。具体获取方法之后再补)。而对于生成式模型,通过我们概率论中的贝叶斯定理,可以将后验概率的获取转为如下公式:

P(c|x)=\frac{P(x,c)}{P(x)}=\frac{P(c)P(x|c)}{P(x)}

P(c)是先验概率(prior),就是不管输入如何,我只统计我最后分类结果出现的概率情况,P(x)和标签类别无关,所以我们在计算的时候不需要考虑,那么我们重点关注的便是似然概率P(x|c)(likelihood)。

二、极大似然概率

        假设概率P(x|c)具有确定的形式并且被参数向量\theta_c,那么我们训练模型的目标就是基于训练集优化找到最优参数\theta_c

        极大似然估计就是通过训练数据采样估计概率分布参数。用D_c表示训练集D中属于第c类样本组成的集合,假设这些样本是独立同分布的,那么参数\theta_c对于数据集D_c的似然是:

P(D_c|\theta_c)= \prod_{x\in D_c}P(x|\theta_c)

         由于连乘容易造成下溢,通常使用对数似然,将累乘转为累加:

LL(\theta_c)=log P(D_c|\theta_c)=\sum_{x\in D_c}log P(x|\theta_c)

优化目标是找到使损失函数最大的参数\theta_c

三、朴素贝叶斯分类器

        前面说到贝叶斯决策最大的难点在于似然概率的获取。那么为了解决这个问题,朴素贝叶斯分类器采用了“属性条件独立性假设”,那么后验概率公式可以改写成:

P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\prod_{i=1}^{d}P(x_i|c)

其中,d表示属性数目,x_ix在第i个属性上的取值。

        那么在已经做了属性条件独立的假设前提下,属性条件概率计算可以通过下式获得:

P(x_i|c)=\frac{\left | D_{x_i,c} \right |}{\left | D_c \right |}

其中,D_{x_i,c}表示D_c中在第i个属性上取值为x_i的样本组成的集合。

四、贝叶斯网络

        贝叶斯网也叫做信念网(belief network),是一种经典的概率图模型。

       若网络结构一直,那么属性之间的依赖关系也是已知,那么贝叶斯网的学习过程通过对训练样本计数计算条件概率。然而,实际中贝叶斯网络的的结构并不事先知道,那么我们就需要根据训练数据来找到最“恰当的”网络结构。评分搜索是解决这一问题的常用方法(类似于损失函数)。

        常用的评分函数通常基于信息论,学习目标是找到一个能以最短编码长度描述训练数据的模型。那么给定训练集D = \left \{ x_1, x_2, ..., x_m\right \},对于贝叶斯网B=< G, \Theta >的评分函数可以写成:

s(B|D)=f(\theta)\left | B \right | - LL(B|D)

其中,f(\theta)是每个参数\theta所需编码为数,\left | B \right |是贝叶斯网的参数个数

你可能感兴趣的:(机器学习,概率论,机器学习,人工智能)