西瓜书学习笔记——第十四章:概率图模型

14.概率图模型

  • 14.0 概率图模型
  • 14.1 隐马尔可夫模型
  • 14.2 马尔科夫随机场(MRF)
  • 14.3 条件随机场(CRF)
  • 14.4 学习与推断
    • 14.4.1 变量消去
  • 14.4.2 信念传播
  • 14.5 LDA话题模型

14.0 概率图模型

机器学习的核心在于根据一些已经观察到的证据(例如训练样本)来对未知变量进行估计和预测。其中基于概率的模型将学习任务归结为计算变量的概率分布,正如之前已经提到的:生成式模型先对联合分布进行建模,从而再来求解后验概率,例如:贝叶斯分类器先对联合分布进行最大似然估计,从而便可以计算类条件概率;判别式模型则是直接对条件分布进行建模 。

概率图模型(probabilistic graphical model)是一类用图结构来表达各属性之间相关关系的概率模型,一般而言:图中的一个结点表示一个或一组随机变量,结点之间的边则表示变量间的相关关系,从而形成了一张“变量关系图”。
根据边的性质不同,概率图模型大致可分为两类:

  • 若使用有向无环图表示变量之间的依赖关系,称为贝叶斯网(Bayesian nerwork)或有向图模型;
  • 若使用无向图表示变量间的相关关系,则称为马尔可夫网(Markov network)或无向图模型。

14.1 隐马尔可夫模型

HMM是结构最简单的动态贝叶斯网,主要用于时序数据建模,在语音识别和NPL等领域有广泛应用。

HMM中的变量分为两组:状态变量与观测变量,其中状态变量一般是未知的,因此又称为“隐变量”,观测变量则是已知的输出值。

在隐马尔可夫模型中,变量之间的依赖关系遵循如下两个规则:

  • 观测变量的取值仅依赖于状态变量;
  • 下一个状态的取值仅依赖于当前状态。通俗来讲:现在决定未来,未来与过去无关,这就是著名的马尔可夫性。

西瓜书学习笔记——第十四章:概率图模型_第1张图片
基于马尔科夫链的依赖关系,所有变量的联合概率分布为:
在这里插入图片描述
除了结构信息,欲确定一个HMM模型还需以下三组参数:
西瓜书学习笔记——第十四章:概率图模型_第2张图片
西瓜书学习笔记——第十四章:概率图模型_第3张图片
西瓜书学习笔记——第十四章:概率图模型_第4张图片
当确定了一个HMM模型的三个参数后,便按照下面的规则来生成观测值序列:
西瓜书学习笔记——第十四章:概率图模型_第5张图片在实际应用中,人们常关注HMM的三个基本问题:
西瓜书学习笔记——第十四章:概率图模型_第6张图片

14.2 马尔科夫随机场(MRF)

马尔可夫随机场(Markov Random Field)是一种典型的马尔可夫网,即使用无向边来表达变量间的依赖关系。在马尔可夫随机场中,对于关系图中的一个子集,若任意两结点间都有边连接,则称该子集为一个团;若再加一个结点便不能形成团,则称该子集为极大团。MRF使用势函数来定义多个变量的概率分布函数,其中每个(极大)团对应一个势函数,一般团中的变量关系也体现在它所对应的极大团中,因此常常基于极大团来定义变量的联合概率分布函数。具体而言,若所有变量构成的极大团的集合为C,则MRF的联合概率函数可以定义为:
西瓜书学习笔记——第十四章:概率图模型_第7张图片
马尔可夫随机场通过分离集来实现条件独立:若A结点集必须经过C结点集才能到达B结点集,则称C为分离集。
基于分离集的概念,有:

  • 全局马尔可夫性:给定两个变量子集的分离集,则这两个变量子集条件独立。
  • 局部马尔可夫性:给定某变量的邻接变量,则该变量与其它变量条件独立。
  • 成对马尔可夫性:给定所有其他变量,两个非邻接变量条件独立。

对于MRF中的势函数,势函数主要用于描述团中变量之间的相关关系,且要求为非负函数,直观来看:势函数需要在偏好的变量取值上函数值较大,例如:若x1与x2成正相关,则需要将这种关系反映在势函数的函数值中。一般我们常使用指数函数来定义势函数:
在这里插入图片描述

14.3 条件随机场(CRF)

条件随机场是一种判别式无向图模型。前面所讲到的隐马尔可夫模型和马尔可夫随机场都属于生成式模型,即对联合概率进行建模,条件随机场则是对条件分布进行建模。CRF试图在给定观测值序列后,对状态序列的概率分布进行建模,即P(y | x)。直观上看:CRF与HMM的解码问题十分类似,都是在给定观测值序列后,研究状态序列可能的取值

CRF可以有多种结构,只需能表示标记变量之间的条件独立性关系即可,也即保证状态序列满足马尔可夫性即可,一般我们常使用的是链式条件随机场:
西瓜书学习笔记——第十四章:概率图模型_第8张图片
与马尔可夫随机场定义联合概率类似,CRF也通过团以及势函数的概念来定义条件概率P(y | x)。在给定观测值序列的条件下,链式条件随机场主要包含两种团结构:单个状态团及相邻状态团,通过引入两类特征函数便可以定义出目标条件概率:
西瓜书学习笔记——第十四章:概率图模型_第9张图片

14.4 学习与推断

对于生成式模型,通常我们都是先对变量的联合概率分布进行建模,接着再求出目标变量的边际分布(marginal distribution),边际分布是指对无关变量求和或积分后得到的结果,从联合概率得到边际分布,便是学习与推断。
概率图模型的推断方法大致可分为两类:

  • 精确推断方法:希望能计算出目标变量的边际分布或条件分布的精确值;遗憾的是,一般情形下,此类算法的计算复杂度随着极大团规模增长呈指数增长,使用范围有限。
  • 近似推断方法:希望在较低时间复杂度下获得原问题的近似解。

下面主要介绍两种精确推断的方法:变量消去与信念传播。

14.4.1 变量消去

变量消去利用条件独立性来消减计算目标概率值所需的计算量,它通过运用乘法与加法的分配率,将对变量的积的求和问题转化为对部分变量交替进行求积与求和的问题,从而将每次的运算控制在局部,达到简化运算的目的。
西瓜书学习笔记——第十四章:概率图模型_第10张图片
西瓜书学习笔记——第十四章:概率图模型_第11张图片

14.4.2 信念传播

信念传播算法将变量消去法中的求和操作看作一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题。

若将变量求和操作看作是一种消息的传递过程,信念传播可以理解成:一个节点在接收到所有其它节点的消息后才向另一个节点发送消息,同时当前节点的边际概率正比于他所接收的消息的乘积:

在这里插入图片描述
因此只需要经过下面两个步骤,便可以完成所有的消息传递过程。利用动态规划法的思想记录传递过程中的所有消息,当计算某个结点的边际概率分布时,只需直接取出传到该结点的消息即可,从而避免了计算多个边际分布时的冗余计算问题。

  1. 指定一个根节点,从所有的叶节点开始向根节点传递消息,直到根节点收到所有邻接结点的消息(从叶到根);

  2. 从根节点开始向叶节点传递消息,直到所有叶节点均收到消息(从根到叶)

西瓜书学习笔记——第十四章:概率图模型_第12张图片

14.5 LDA话题模型

话题模型是一族生成式有向图模型,主要用于处理离散型的数据,如文本数据,隐狄利克雷分配模型LDA是话题模型的典型代表。以下是话题模型中的几个概念:

词:最基本的离散单元;
文档:由一组词组成,词在文档中不计顺序;
话题:由一组特定的词组成,这组词具有较强的相关关系。

在现实任务中,一般我们可以得出一个文档的词频分布,但不知道该文档对应着哪些话题,LDA话题模型正是为了解决这个问题。

具体来说:LDA认为每篇文档包含多个话题,且其中每一个词都对应着一个话题。因此可以假设文档是通过如下方式生成:
西瓜书学习笔记——第十四章:概率图模型_第13张图片
这样一个文档中的所有词都可以认为是通过话题模型来生成的,当已知一个文档的词频分布后(即一个N维向量,N为词库大小),则可以认为:每一个词频元素都对应着一个话题,而话题对应的词频分布则影响着该词频元素的大小。因此很容易写出LDA模型对应的联合概率函数:
在这里插入图片描述

参考文章链接

你可能感兴趣的:(西瓜书学习笔记)