1、贝叶斯决策论(Bayesian decision theory)
是概率框架下实施决策的基本方法。基于后验概率可获得将样本x误分类所产生的期望损失(expected loss),即在样本x上的“条件风险”(conditional risk)
我们的任务是寻找一个判定准则,以最小化总体风险。——贝叶斯判定准则(Bayes decision rule):最小化总体风险,只需在每个样本上选择使conditional risk最小的类别标记。此时的分类器成为“贝叶斯最优分类器”(Bayes optimal classifier),与之对应的总体风险成为“贝叶斯风险”(Bayes risk)。1- Bayes_risk 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率,往往难以直接获得。机器学习要实现的是基于有限训练样本集尽可能准确地估计出后验概率。主要有两种策略:“判别式模型”(discriminative models)、“生成式模型”(generative models)。
2、极大似然估计(Maximum Likelihood Estimation——MLE)
是根据数据采样估计概率分布参数的经典方法。是试图在参数所有可能的取值中,找到一个能使数据出现在数据集中的“可能性”最大的值。
需要注意的是,这种参数化的方法虽然能使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。
3、朴素贝叶斯分类器
基于贝叶斯公式来估计后验概率的主要困难在于:类条件概率是所有属性的联合概率,难以从有限的训练样本直接估计而得。为避开此障碍,“朴素贝叶斯分类器”(naive Bayes classifier)采用了“属性条件独立性假设”(attribute conditional independence assumption):对已知类别,假设所有属性相对独立,换言之,假设每个属性独立地对分类结果发生影响。
显然,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率,并为每个属性估计条件概率。
为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时通常要进行“平滑”(smoothing),常用“拉普拉斯修正”(Laplacian correction),避免了因训练样本不充分而导致概率估计值为零的问题,而且在训练集变大时,修正过程所引入的先验(prior)的影响也会逐渐变得可忽略,使得估值渐趋向于实际概率值。
现实任务中贝叶斯分类器,若对预测速度要求较高,可将其涉及的所有概率估值事先计算好存储起来,这样预测时“查表”即可判别;若任务数据更替频繁,则可采用“懒惰学习”(lazy learning)方法,先不进行任何训练,待接收到预测请求时在根据当前数据集进行概率估值;若数据不断增加,则可在现有估值基础上,仅对新增样本的属性值所涉及的概率估值进行计数修正即可实现“增量学习”
4、半朴素贝叶斯分类器
为降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用了属性条件独立性假设,但现实任务中此假设也很难成立,于是人们尝试对属性条件独立性假设进行一定程度的放松,由此产生了一类为“半朴素贝叶斯分类器”(semi-naive Bayes classifiers)的学习方法。
采用“独依赖估计”(One-Dependent Estimator——ODE)策略:假设每个属性在类别之外最多仅依赖于一个其他属性。
5、贝叶斯网(Bayesian network)亦称“信念网”(belief network)
其借助又向无环图(Directed Acyclic Graph——DAG)来刻画属性之间的依赖关系,并使用条件概率表(conditional Probability Table——CPT)来描述属性的联合概率分布。
1)结构
贝叶斯网结构有效地表达了属性间的条件独立性。给定父节点集,贝叶斯网假设每个属性与它的非后裔属性独立。贝叶斯网中三个变量之间的典型依赖关系有:同父结构、V型结构、顺序结构。
“边际独立性”(marginal independence)
“道德图”(moral graph)
2)学习
贝叶斯网学习的首要任务就是根据训练数据集来找出结构最“恰当”的贝叶斯网。“评分搜索”是求解这一问题的常用办法。先定义一个评分函数(score function),以此来评估贝叶斯网与训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网。符合“最小描述长度”(Minimal Description Length——MDL)准则。
不幸的是,从所有可能的网络结构空间搜索最优贝叶斯网结构是一个NP难问题,难以快速求解。有两种常用策略能在有限时间内求得近似解:第一种是贪心法;第二种是通过网络结构施加约束来削减搜索空间。
3)推断
通过抑制变量观测值来推测待查询变量的过程称为“推断”(inference),已知变量观测值称为“证据”(evidence).
现实任务中,贝叶斯网的近似推断常使用吉布斯采样(Gibbs sampling)来完成,这是一种随机采样方法。
实质上,吉布斯采样是在贝叶斯网所有变量的联合状态空间与证据一致的子空间进行“随机漫步”(random walk),每一步依赖于前一步的状态,这是一个“马尔可夫链”(Markov chain)
6、EM算法
属性中存在“未观测”的变量,称为“隐变量”。EM(Expectation-Maximization)算法是常用的估计参数隐变量的利器。他是一种迭代式的方法:若模型参数已知,则可根据训练数据推断出最优隐变量的值;反之,若隐变量的值已知,则可方便地对模型参数做极大似然估计。
简要来说,EM算法使用两个步骤交替计算:第一步是期望(E)步,利用当前估计的参数值来计算对数似然的期望值;第二步是最大化(M)步,寻找能使E步产生的似然期望最大化的参数值。然后得到的参数值重新被用于E步,。。。直至收敛到局部最优解。
事实上,隐变量估计问题也可通过梯度下降等优化算法求解,但由于求和项数将随着隐变量的数目以指数级上升,会给梯度计算带来麻烦;而EM算法则可看作是一种非梯度优化方法。