序列标注模型

序列标注模型被广泛应用于文本处理相关领域,例如分词、词性标注、命名实体识别等方面。现有的序列标注模型主要有 HMM , MEMM 以及 CRF ,通过对这几种自然语言处理中常用的序列标注模型进行对比,分析其各自的优缺点。
在介绍三种序列标注模型之前,首先需了解下产生式模型与判别式模型的概念,二者在分类器中经常被提及。假定输入 X ,类别标签 Y : 产生式模型估计联合概率P(x,y) ,判别式模型估计条件概率P(y|x) 。产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。
1

图 1 HMM 结构图
图中 Yn, Xn分别表示 HMM 的状态值和观察值,每一个位置可以看作是一个时刻t 。从图中可以清楚地发现 t 时刻的状态只取决于t-1 时刻的状态,即Yn 仅取决于Yn-1 ,并且每个观察值Xn 只由状态值Yn 决定。即 HMM 是一个双重随机过程: ① 马尔可夫链,用来描述状态的转移; ② 随机过程,用来描述状态值和观察值之间的统计关系。
缺点: (1) 为对联合概率分布进行建模, HMM 引入两条独立性假设:第一,马尔科夫链在任意时刻的状态yi 仅依赖于前一个状态yi-1 ;第二,任意时刻的观测xi 只依赖于该时刻马尔科夫链的状态yi 。这就导致 HMM 只能局限于部分上下文特征,无法充分利用更多有效的特征。 (2) 为定义观察值和状态值的联合概率,产生式模型必须列出所有可能的观察序列,这在实际操作中是很难实现的。
2. 最大熵隐马尔科夫模型(MEMM)
最大熵马尔可夫模型是一种判别式模型,它不需要 HMM 那样严格的独立性假设。 MEMM 是基于概率有限状态模型这样一个概念,该模型将观察序列看作是条件事件,而不是由状态生成的。它结合了 MEM 和 HMM 的优点,允许状态转移可以基于输入序列中的非独立性特征,使得 MEMM 在处理自然语言处理的任务时,性能优于 HMM 。 MEMM 是通过求局部最优的条件概率来获得最终的条件概率。 MEMM 的结构如图 2 所示。

图 2 MEMM 结构图
由图 2 可以看出,观察序列是作为条件,而不是生成的,因此图的分布指的是t 时刻状态Yi 所表示的随机变量的联合分布。
缺点:仅对局部求解条件概率,取其概率最大的标注作为最终的输出标注,导致标注偏置问题的产 生, 即凡是训练语料中未出现的情况全都忽略掉。
图 3 是一个对 标记偏置进行解释的实例。

图 3 Viterbi 算法解码 MEMM
图 3 中状态 1 倾向于转换到状态 2 ,同时状态 2 倾向于保留在状态 2 ;但是得到的最优的状态转换路径是 1->1->1->1 ,这是因为状态 2 可以转换的状态比状态 1 要多,从而使转移概率降低,即 MEMM 倾向于选择拥有更少转移的状态。这就是标记偏置问题。
3. 条件随机场模型(CRF)
条件随机场也是一种判别式模型,是指在给定输入节点条件下计算输出节点的条件概率,其核心思想是利用无向图理论使序列标注的结果达到在整个序列上全局最优。 CRF 模型己被应用到自然语言处理的多个领域,如中文分词、命名实体识别等等。理论上,图的结构可以是任意的,但是当用于序列标记任务时,一般假设图是最简单和最通用的图结构,将其称为线性链条件随机场( Linear-chain CRF ),结构如图 3 所示。

图 3 Linear-chain CRF 结构
优点:无需引入独立性假设,能够充分利用上下文信息特征;计算全局最优输出节点的条件概率,克服了最大熵马尔可夫模型存在的标记偏置问题。
缺点:训练代价大、特征函数复杂度高。
总结
三种模型都可以通过 Viterbi 等动态规划算法求得最优值。 HMM 模型是对转移概率和表现概率直接建模,统计共现概率。 MEMM 模型是对转移概率和表现概率建立联合概率,统计的是条件概率,容易陷入局部最优。 CRF 模型统计了全局概率,考虑了数据在全局的分布,而不是仅仅在局部归一化,解决了 MEMM 中的标记偏置问题。

你可能感兴趣的:(序列标注模型)