各种概率图模型转换



- 本人阅读的材料来主要来自于李航的《统计学习方法》第十一章和之前有人贴出的" An introduction to conditional random fields" (90页太多没读完= _ =)
- 这段文字主要从两个方面描述了CRF公式的由来和其他模型的关系。
- 阅读前默认读者已了解HMM。知道大致流程是训练,最大似然,然后预测,知道特征函数的定义等细节。
- 自己感觉,如果只要使用模型的话,只要知道公式,parameter estimate和inference就可以了,要弄清楚整个probability graph model是个不小的工作量。
- 公式貌似太多,要是有人愿意阅读,本学渣跪谢您的耐心。
正文:
一般可以从两个方面来理解CRF模型:
一个从一般的graphical model来的(可以看成logistic回归的扩展)。
另一个方面是linear chain CRF与HMM有类似的结构,而分别是discriminative model和generative model。
直接扔出CRF的公式会给人一种wtf的感觉,我阅读的材料都是从无向图模型开始说起,从这个模型开始呢,可以理解公式怎么来的,那我们就从这个模型说起吧
 概率无向图模型(probabilistic undirected graphical model)
首先我们有无向图G=(V,E),V是节点,E是边, 图G中每个节点v上都有一个随机变量y,这样所有的节点上的随机变量就构成一组随机变量Y,图G上有联合概率分布P(Y)。边e表示相邻节点的变量存在某种神秘的联系。
图G上的随机变量Y满足马尔科夫性,即两个不相邻的节点上的随机变量yi,yj条件独立。
这个模型的定义就这么简单,它又叫马尔科夫随机场(MRF),这个名字貌似响亮一些。
再稍微介绍一下最大团(maximal clique) 如下图
各种概率图模型转换

图中{Y1,Y2,Y3}和{Y3,Y2,Y4}是最大团,包含的任何节点都两两相连被称作团。最大团就是不能再添加节点。

然后呢,有个定理叫Hammersley-Clifford定理,给出了无向图模型P(Y)的公式。
- Hammersley-Clifford定理
概率无向图模型的联合概率分布P(Y)可以表示为如下形式:

其中C是无向图最大团,Yc是C的节点对应的随机变量,是一个严格正势函数,乘积(因式分解)是在无向图所有最大团上进行的。
另外,势函数这东西呢是Gibbs分布的,这个定理意义就是用Gibbs概率分布来计算马尔科夫随机

作者:李赋
链接:https://www.zhihu.com/question/35866596/answer/106672515
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

场。一般来说势函数取对数线性,这样方便计算。
好了,这东西就介绍完了,接下来就是CRF。

- 条件随机场(conditional random field)
定义:(和上面的模型比较就是多了一个X。)
设X与Y是随机变量,P(Y|X)是给定条件X的条件下Y的条件概率分布,若随机变量Y构成一个由无向图G=(V,E)表示的马尔科夫随机场。则称条件概率分布P(X|Y)为条件随机场。
虽然定义里面没有要求,我们还是默认X和Y结构一致,这是general CRF,然后看看linear chain CRF,线性链就是X和Y都是一串序列,线性链里面呢,最大团就是相邻的两项,y_i和y_i+1。
由Hammersley-Clifford定理写出linear chain CRF的公式。

势函数取 对数线性,就得到了第一次见让本学渣云里雾里的公式。(懒得输了贴个图)
各种概率图模型转换
作者:李赋
链接:https://www.zhihu.com/question/35866596/answer/106672515
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

再详细点:
各种概率图模型转换

就是linear chain CRF常见的两种特征函数指数和的形式。
注意点!!!高潮来了!!如果我们把上式中的特征函数去掉,得到就是自变量X关于Y的logistic回归(加上一个normalizer函数Z(x)),每个Y和X之间对数线性关系。本学渣看到这里的时候真是amazing了一下。

好了,那么是不是可以说linear chain CRF是logistic回归,再加上了有关相邻项某种神秘联系的参数呢?看起来是这样的,我也不敢确定= =、、
之后呢,再从HMM的角度看。

- HMM和linear chain CRF
HMM的概率分布可以写成这样的形式:
各种概率图模型转换
作者:李赋
链接:https://www.zhihu.com/question/35866596/answer/106672515
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

右边取对数变成和的形式,再加上归一化的Z(x) 得到
各种概率图模型转换

嗯,这样一看就和前面的CRF长的很像了,就是一个是条件概率,一个是联合概率,
这也是discriminative model和generative model的区别。
注意Z(x)是遍历所有y的全局归一化,写在乘积符号里面的是local归一化,得到的是MEMM。
其实generative和discriminative的差别是很大的,因为假设不一样,结果和参数训练的方法都不同,线性的CRF不需要EM算法,稍微简单一些,最大似然训练集之后,梯度下降加上vertebi算法就可以了。

最后贴上参考资料上一张图

各种概率图模型转换

嗯,所以说我们就是从这两条路走到了线性的CRF,general的CRF也是从MRF来的,公式是最大团的乘积形式,计算上麻烦一些,会用到loopy belief propagation。

作者:李赋
链接:https://www.zhihu.com/question/35866596/answer/106672515
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

你可能感兴趣的:(概率图之间的关系)