从PGM到HMM再到CRF(self_note)

从PGM到HMM再到CRF(self_note)_第1张图片
从PGM到HMM再到CRF(self_note)_第2张图片
从PGM到HMM再到CRF(self_note)_第3张图片
从PGM到HMM再到CRF(self_note)_第4张图片
从PGM到HMM再到CRF(self_note)_第5张图片
从PGM到HMM再到CRF(self_note)_第6张图片
问:
有一点不太明白 想请教:MRF和CRF看起来好像就是p(x,y)和p(y|x)的差别,为什么他们两个模型的应用差距那么的大呢?MRF广泛运用在各种领域,CRF大部分都用的linear

答:
忽略掉生成模型和判别模型的差别,如果只是给定了观测变量X要计算隐变量Y的概率话,而不需要生成一个新的样本的话,MRF和CRF确实是一样的。很多论文里用MRF,其实就是把MRF当成CRF用的,所以你说他们用的是MRF也行,说他们用的是general CRF也行。
Linear-Chain CRF的强势主要是在自然语言处理中的强势吧,因为句子是一个单词的序列嘛,自然是一维的线性结构(暂时不考虑语言中的从句等递归结构或者其他信息),不像图像那样是二维的,因此用不着general CRF。当然自然语言处理中也有用general CRF的,比如做命名实体识别,有一句话开头是Green,你不知道这是个人名“格林”还是“绿色”这个词放在句首所以要大写。但如果这句话后面又出现了一个首字母大写的Green,那就说明句首的Green很可能是个人名。所以可以除了在相邻单词之间连边外,再加上在同一个词的不同出现之间连边,这时图模型就有环了,变成了general CRF(这种叫skip-chain CRF)。
不过general CRF很难训练呀,图像处理里面的MRF很多都是形状规则的(格点形成一个矩形,近似推断的时候可以固定其他点每次求某一列或者某一行变量的marginal),而skip-chain CRF边的连接是不规则的,不同的句子的图里面环的个数和大小都可能不一样,这就很麻烦了。(当然图像处理的时候也有的用超像素把相似节点合并,这时候MRF的训练就很麻烦了)加上也没有什么特别成熟的工具包来做skip-chain CRF的推断(印象中CRF++和CRFSuite都只能处理LC-CRF),研究这个的人也就很少了。要建模那些复杂的递归或者引用关系的话,用CRF那么复杂,现在大家都改用神经网络了,比如LSTM,反正Keras搭个神经网络也就几十行代码都不到,很快的。
——摘自知乎https://www.zhihu.com/people/SeptEnds/answers的回答。

你可能感兴趣的:(概率论与数理统计)