马尔科夫与隐马尔可夫总结



马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于前面有限个状态。如果

对于过去状态的条件 概率分布仅是
的一个函数,则



在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。


马尔科夫与隐马尔可夫总结_第1张图片
http://www.cnblogs.com/skyme/p/4651331.html

CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像词性标注,实体识别。

1.  但隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,

2. 而最大熵隐马模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉,

3. 而条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

举个例子,对于一个标注任务,“我爱北京天安门“, 标注为” s s b e b c e”

对于HMM的话,其判断这个标注成立的概率为 P= P(s转移到s)P(‘我’表现为s) P(s转移到b)P(‘爱’表现为s) …*P().训练时,要统计状态转移概率矩阵和表现矩 阵。

对于MEMM的话,其判断这个标注成立的概率为 P= P(s转移到s|’我’表现为s)P(‘我’表现为s) P(s转移到b|’爱’表现为s)P(‘爱’表现为s)..训练时,要统计条件状态转移概率矩阵和表现矩阵。

对于CRF的话,其判断这个标注成立的概率为 P= F(s转移到s,’我’表现为s)….F为一个函数,是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。




你可能感兴趣的:(马尔科夫与隐马尔可夫总结)