第十四章 概率图模型

14.1 隐马尔可夫模型

机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测。概念模型提供了一种描述框架,将学习任务归结于计算变量的概率分布。在概念模型中,利用已知变量推测未知变量的分布称为推断,其核心是如何基于可观测变量推测出未知变量的条件分布。
概率图模型是一类用图来表达变量相关关系的概率模型。它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即变量关系图。根据边的性质不同,概率图模型大致可分为两类:第一类是使用有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网
隐马尔可夫模型是结构最简单的动态贝叶斯网,这是一种著名的有向图模型,主要用于时序数据建模,在语音识别,自然语言处理等领域有广泛应用。
如下图所示,隐马尔可夫模型中的变量可分为两组。第一组是状态变量{y1,y2,…yn},通常假定状态变量是隐藏的、不可观测的,因此状态变量亦称隐变量。第二组是观测变量{x1,x2,…,xn}。
第十四章 概率图模型_第1张图片
第十四章 概率图模型_第2张图片
除了结构信息,欲确定一个隐马尔可夫模型还需以下三组参数。

第十四章 概率图模型_第3张图片
第十四章 概率图模型_第4张图片
第十四章 概率图模型_第5张图片

14.2 马尔可夫随机场

马尔可夫随机场是典型的马尔可夫网,这是一种著名的无向图模型。图中每个结点表示一个或一组变量,节点之间的边表示两个变量之间的依赖关系。
马尔可夫随机场有一组势函数,亦称因子,这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。
下图显示出一个简单的马尔可夫随机场。对于图中结点的一个子集,若其中任意两节点间都有边连接,则称该节点子集为一个。若在一个团中加入另外任何一个结点都不再形成团,则称该团为极大团
第十四章 概率图模型_第6张图片

14.3 条件随机场

条件随机场是一种判别式无向图模型。生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模。
条件随机场试图对多个变量在给定观测值后的条件概率进行建模。具体来说,若令x={x1,x2,…,xn}为观测序列,y={y1,y2,…,yn}为与之相应的标记序列,则条件随机场的目标是构建条件概率模型P(y|x)。需注意的是,标记变量y可以是结构型变量,即其分量之间具有某种相关性。
例如在自然语言处理的词性标注任务中,观测数据为语句(即单词序列),标记为相应的词性序列,具有线性序列结构,如图14.5a所示;在语法分析任务中,输出标记则是语法树,具有树形结构,如图14.5b所示。
第十四章 概率图模型_第7张图片
第十四章 概率图模型_第8张图片

14.4 学习与推断

基于概率图模型定义的联合概率分布,我们能对目标变量的边际分布或以某些可观测变量为条件的条件分布进行推断。
概率图模型的推断方法大致可分为两类:
第一类是精确推断方法,希望能计算出目标变量的边际分布或条件分布的精确值;遗憾的是,一般情形下,此类算法的计算复杂度随着极大团规模的增长呈指数增长。适用范围有限。
第二类是近似推断方法,希望在较低的时间复杂度下获得原问题的近似解;此类方法在现实任务中更常用。

14.4.1 变量消去

精确推断的实质是一类动态规划算法,它利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。变量消去法是最直观的精确推断算法,也是构建其他精确推断算法的基础。
第十四章 概率图模型_第9张图片

14.4.2 信念传播

信念传播算法将变量消去法中的求和操作看作一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题。
第十四章 概率图模型_第10张图片

14.5 近似推断

精确推断方法通常需要很大的计算开销,因此在现实任务应用中近似推断方法更常用。
近似推断方法大致可分为两大类:
第一类是采样,通过使用随机化方法完成近似;
第二类是使用确定性近似完成近似推断,典型代表为变分推断

14.5.1 MCMC采样

MCMC方法先设法构造一条马尔可夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔可夫链来产生符合后验分布的样本,并基于这些样本来进行估计。这里马尔可夫链转移概率的构造至关重要,不同的构造方法将产生不同的MCMC算法。
MH算法是MCMC的重要代表。它基于拒绝采样来逼近平稳分布p
第十四章 概率图模型_第11张图片
吉布斯采样有时被视为MH算法的特例。

14.5.2 变分推断

变分推断通过使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。

14.6 话题模型

话题模型是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型(LDA)是话题模型的典型代表。

你可能感兴趣的:(机器学习,概率论,算法)