机器学习-概率图模型:最大熵马尔可夫模型(MEMM)【解决序列问题】【前提假设:隐层状态序列符合马尔可夫性】【HMM--去除“观测状态相互独立”假设-->MEMM】【判别式模型】

在隐马尔可夫模型中,假设隐状态(即序列标注问题中的标注) x i x_i xi 的状态满足马尔可夫过程。但是实际上,在序列标注问题中,隐状态(标注)不仅和单个观测状态相关,还和观察序列的长度、上下文等信息相关。

例如词性标注问题中,一个词被标注为动词还是名词,不仅与它本身以及它前一个词的标注有关,还依赖于上下文中的其他词,于是引出了最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)。

最大熵马尔可夫模型在建模时,去除了隐马尔可夫模型中观测状态相互独立的假设,考虑了整个观测序列,因此获得了更强的表达能力。

  • 隐马尔可夫模型是一种对隐状态序列和观测状态序列的联合概率P(x,y)进行建模的生成式模型
  • 最大熵马尔可夫模型是直接对标注的后验概率P(y|x)进行建模的判别式模型

最大熵马尔可夫模型存在标注偏置问题:由于局部归一化的影响,隐状态会倾向于转移到那些后续状态可能更少的状态上,以提高整体的后验概率。这就是标注偏置问题。

条件随机场在最大熵马尔可夫模型的基础上,进行了全局归一化,枚举了整个隐状态序列 x 1 … x n x_1…x_n x1xn的全部可能,从而解决了局部归一化带来的标注偏置问题。【给定了观察值(observations)集合的马尔科夫随机场(MRF)】

1、什么样的问题需要MEMM模型

首先我们来看看什么样的问题解决可以用CRF模型。使用CRF模型时我们的问题一般有这两个特征:

  1. 我们的问题是基于序列的,比如时间序列,或者状态序列。
  2. 我们的问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。

2、MEMM模型的前提

马尔科夫假设:当前隐层状态仅与上一个状态有关;

无观测独立性假设: 任意时刻的观察状态不仅仅依赖于当前时刻的隐藏状态,也依赖于前面时刻的隐藏状态;由于限制更少,CRF利用了更多的信息,如观测序列上下文信息,以及观测序列元素本身的特征(是否是数字,是否大写,是否以某字符串开头或结尾)

你可能感兴趣的:(#,ML/经典模型,MEMM,最大熵马尔科夫模型,判别式模型)