CRF的优势

我们将介绍条件随机场,一个构建分词和序列标注的概率模型。条件随机场与隐马尔科夫模型和随机文法相比,在独立假设方面有自己的优势。条件随机场与最大熵马尔科夫模型(MEMM)和其它马尔科夫判别式模型相比避免了一些有向图方面的基本限制,就是偏向于那些比较少的后续状态的状态点。我们提出用迭代的办法进行参数估计,并且在合成语言和自然语言处理性能方面与HMMMEMM做了比较。

 

1. 介绍

分段和序列标注问题在许多的科学场景中都有应用。隐马尔科夫模型(HMM)最大熵马尔科夫模型(MEMM)和随机文法是很好理解并且在这些领域里面广泛应用的一些模型。在计算生物学中,HMM和随机文法模型成功的匹配逻辑序列,找到进化过程中的同一家族的生物,还有分析RNA的二级结构。在计算语言和计算机科学中,HMM和随机文法模型被广泛应用于文本和语音处理,包括主题分段,词性标注(POS),信息抽取和语法消岐。

HMM和随机文法都是生成模型,分配联合概率给成对观察和标注序列。参数的训练用来最大化训练样本的最大似然。为了定义观察序列和标注序列的联合概率分布,生成模型需要枚举出所有可能的观察序列,并需要对最基本的单位比如单词或者核苷酸进行表示。更特别的是,这两个模型在特征组合和观察值的大范围依赖等问题表现得没有吸引力。

这些问题导致了条件模型作为替代出现。条件模型在给定观察序列的条件下指定标注序列的概率。但是在观察的基础上模型并不做扩展,并且在测试时间内是确定的。更重要的是标注序列的条件概率能够依赖观察值任意的特征之间的依赖关系,而不需要使模型对这些依赖做出任何反应。对于同一观察值被选择的特征可能在不同粒度的水平上(比如,英文的单词或者字母),或者观察序列的聚合属性(比如文本层次)。标注序列之间的概率转换不仅依赖目前的观察值,而且依赖过去和将来的观察值。比较而言,生成模型建立在观察值之间严格的独立假设基础上,比如对于给定标注的条件独立,来达到容易处理的目的。

最大熵马尔科夫模型(MEMM)是条件概率序列模型,解决了上述所有的缺点。在MEMMs中,每一个源状态,都有一个指数模型作为观察特征的输入,并且输出后续可能状态的概率分布。这些指数模型通过合适的迭代方法在最大熵框架下进行训练。目前出版的实验结果显示,MEMMsHMMFAQ相比在召回率有很大提高,在准确率上大概提高两倍。

MEMMs和其它基于后续状态分类的非生成有限状态模型,比如判别式马尔科夫模型,都有一个缺点,我们这里叫他“标注偏执问题”:对于从同一给定状态出来的转换概率仅仅与自己相互进行比较,而不是模型中所有的概率转化进行比较。在概率关系中,转化的值是在给定目前状态和观察序列下,是转化到后续状态的条件概率。每个状态的标准化转化值,都指的是“概率块的保持”,所以所有的落在某个状态上的都必须分配到后续可能的状态上。一个观察值能够影响哪个目标状态能够获得概率数据,但是决定不了分配多少。这就导致概率偏向于那些后续状态上的那些转换。在极端情况下,只拥有一个输出转换的状态,有效的忽略了观察。在这种情况下,不像HMMs模型,Viterbi算法在基于观察节点分支节点后不能降低权重,并且比较稀少的状态链接链的状态转换模型不适合处理(Viterbi decoding cannot downgrade a branch based on observations after the branch point, and models with statetransition structures that have sparsely connected chains of states are not properly handled). MEMMs中隐马尔科夫模型假设,和类似的状态条件模型的当前状态与将来的状态没有关系,所以并没有实现真正的连续状态依赖。

本文将介绍条件随机场conditional random fields(CRFs).一个拥有MEMMs所有优势的序列模型框架,并且解决了标注偏执问题。CRFsMEMMs的最关键不同点是:给定当前状态的下一个状态的条件概率,MEMMs使用一个指数模型,而CRF对于给定的所有观察序列的标注序列的联合概率,只有一个指数模型。因此,不同特征的权重的区别被抵消。

我们也可以认为CRF是一个未归一化的有限状态模型。当然,不像其它的加权有限状态过程,CRFs分配一个通过最大似然估计或者MAP得到的概率分布给可能的序列。此外,损失函数是凸函数,所以能够保证收敛到全局最优。CRFs也很容易生成类似的随机上下文无关文法,这个有点被应用到RNA的二级结构预测和自然语言处理问题。

我们通过描述两个训练过程和收敛的证明来表达模型。同时我们将使用解决了经典的标注偏执问题的CRFs给出合成数据的实验结果,并且更有意义的是CRFsHMMsMEMMs相比,当观察数据的分布具有长距离依赖的情况下有着更好的表现,在实践中更是如此。最后,我们通过与HMMsMEMMs还有使用单一状态结构进行词性标注的CRF进行比较结果将确定CRFs模型的优点。


CRF
优点:
(1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)(与HMM比较)
(2)由于CRF计算全局最优输出节点的条件概率,它还客服了最大熵马尔科夫模型标记偏执缺点。(与MEMM)
(3)CRF是在个顶需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定的当前状态条件下,定义下一个状态的状态分布。(ME比较)

缺点: 训练代价大,复杂度高

你可能感兴趣的:(datamining)