西瓜书14-概率图模型

chapter 14 概率图模型

14.1 隐马尔可夫模型

机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测,概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布,在概率模型中,利用已知变量推测未知变量的分布称为“推断”,其核心是如何基于可观测变量推测出未知变量的条件分布

具体来说,假定所关心的变量集合为Y,可观测变量集合为O,其它变量集合为R,“生成式”模型考虑联合分布P(Y,R,O),“判别式”模型考虑条件分布P(Y,R丨O),给定一组观测变量值,推断就是要从P(Y,R,O)或P(Y,R丨O)得到条件概率分布P(Y丨O)。

为了便于研究高效的推断和学习算法,需有一套能简洁紧凑地表达变量间关系的工具。

概率图模型是一类用图来表达变量相关关系的概率模型,它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的边表示变量间的概率相关关系,即“变量关系图”,根据边的性质不同,概率图模型可大致分为两类:第一类是有向无环图表示变量间的依赖关系,称为有向图模型贝叶斯网;第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网

隐马尔可夫模型是结构最简单的动态贝叶斯网,这是一种著名的有向图模型,主要用于时序数据建模,在语音识别,NLP等领域有广泛应用。
如图14.1所示,隐马尔可夫模型中的变量可分为两组,第一组是状态变量{y1,y2,…,yn},其中yi属于Y表示第i时刻的系统状态,通常假定状态变量是隐藏的,不可被观测的,因此状态变量亦称隐变量,第二组是观测变量{x1,x2,…,xn},其中xi属于X表示第i时刻的观测值,在隐马尔可夫模型中,系统通常在多个状态{s1,s2,…,sn}之间转换,因此状态变量yi的取值范围Y(称为状态空间)通常是有N个可能取值的离散空间,观测变量xi可以是离散型也可以是连续型,为便于讨论,我们仅考虑离散型观测变量,并假定其取值范围X为{o1,o2,…,oM}。
西瓜书14-概率图模型_第1张图片
图14.1的箭头表示了变量间的依赖关系,在任一时刻,观测变量的取值仅依赖于状态变量,即xi由yi确定,与其它状态变量及观测变量的取值无关。同时,t时刻的状态yt仅依赖于t-1时刻的状态yt-1,与其余n-2个状态无关,这就是所谓的“马尔可夫链”,即:系统下一时刻的状态仅由当前状态决定,不依赖于以往的任何状态。

14.2 马尔可夫随机场

马尔可夫随机场是典型的马尔可夫网,这是一种著名的无向图模型,图中每个结点表示一个或一组变量,结点之间的边表示两个变量之间的依赖关系,马尔可夫随机场有一组势函数,亦称“因子”,这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。
图14.2显示出一个简单的马尔可夫随机场,对于图中结点的一个子集,若其中任意两结点间都有边连接,则称该结点子集为一个“团”,若在一个团中加入另外任何一个结点都不再形成团(有一个能形成团都不行),则称该团为“极大团”,换言之,极大团就是不能被其他团所包含的团。例如,在图14.2中,{x1,x2},{x1,x3},{x2,x4},{x2,x5},{x2,x6},{x3,x5},{x5,x6}和{x2,x5,x6}都是团,并且除了{x2,x5},{x2,x6}和{x5,x6}之外都是极大团,因为x2和x3之间缺乏连接,{x1,x2,x3}并不构成团,显然,每个结点至少出现在一个极大团中。
西瓜书14-概率图模型_第2张图片
下面不想写了
一个参考阅读:概率图模型

你可能感兴趣的:(西瓜书)