CRF,HMM和MEHMM区别

前言:

已知输入x,类别标签y:

    判别式模型估计条件概率分布P(y|x),常见有:LRSVMNN,KNN,CRF,LDA,线性回归

    产生式模型估计联合概率分布P(x,y), 常见有:NBHMM


CRFHMMMEHMM是在序列标注中常用的三种模型,但是也各有优缺点,现在从以下几个方面进行以下比较:(条件随机场,隐马尔科夫,最大熵隐马尔科夫)

1)生成式模型or判别式模型(假设 o 是观察值,m是模型。)

a)生成式模型:无穷样本 -> 概率密度模型 =产生式模型 ->预测

   如果对P(o|m)建模,就是生成式模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。这种方法一般建立在统计力学和 Bayes理论的基础之上。

   HMM模型对转移概率和表现概率直接建模,统计共同出现的概率,是一种生成式模型。

b)判别式模型:有限样本 -> 判别函数 =判别式模型->预测

  如果对条件概率 P(m|o) 建模,就是判别模型。其基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。代表性理论为统计学习理论。

   CRF是一种判别式模型。MEMM不是一种生成式模型,它是一种基于下状态分类的有限状态模型。

2)拓扑结构

    HMMMEMM是一种有向图,CRF是一种无向图

3)全局最优or局部最优

    HMM对转移概率和表现概率直接建模,统计共现概率。

    MEMM是对转移概率和表现概率建立联合概率,统计时统计的是条件概率,由于其只在局部做归一化,所以容易陷入局部最优。

    CRF是在全局范围内统计归一化的概率,而不像是MEMM在局部统计归一化概率。是全局最优的解。解决了MEMM中标注偏置的问题。

   

4)优缺点比较

   优点:

   a)与HMM比较。CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)

   b)与MEMM比较。由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。

   c)与ME比较。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。

   缺点:

训练代价大、复杂度高

你可能感兴趣的:(机器学习)