隐马尔可夫模型(HMM)、最大熵模型、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)对比


概率图模型对序列建模,区分概率图模型的关键是理解模型是联合概率分布还是条件概率分布,在nlp任务中,往往是要求条件概率P(y|x),联合概率分布模型通过贝叶斯公式将条件概率转换为求联合概率,再通过联合概率分布模型求解计算。


隐马尔可夫模型(HMM)

模型是一个联合概率分布P(Q,O),其中Q为隐变量(对应预测结果Y),O为可观测变量(对应训练数据X)。

在求解问题P(Q|O)时,通过贝叶斯公式转化为通过模型P(Q,O)求解结果。

在模型预测阶段,假设模型参数为\mu =\{A,B,\pi\},预测问题即找到使得条件概率P(Q|O,\mu )最大的Q

通过定义维比特变量,求Q、O的联合概率分布

则:

 

最大熵模型

假设分类模型是一个条件概率分布P(Y | X )

通过特征函数f(x,y)约束分布,即:

在约束条件下求条件概率分布P(Y | X )的最大熵:

隐马尔可夫模型(HMM)、最大熵模型、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)对比_第1张图片

定义拉格朗日函数L(P,w):

最优化的原始问题是:

转化为对偶问题:

内部的极小化问题求解得:

隐马尔可夫模型(HMM)、最大熵模型、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)对比_第2张图片

外部极大化问题求解通过求参数w的极大似然估计,优化方法可以通过梯度下降法、牛顿法、拟牛顿法。

 

 

最大熵马尔可夫模型(MEMM)

假设分类模型是一个条件概率分布P(s|s{}',o),其中s{}'s的前一个状态。(s依赖前一个状态s{}',由此引入马尔科夫性)

通过特征函数f(o,s)约束分布,

P(s|s{}',o)的最大熵并求解,内部的极小化问题求解得:

其中Z=(o,s{}')为归一化因子。

外部极大化问题求解,通过求解参数\lambda的极大似然估计。

 

在预测阶段,可通过公式:

 

条件随机场(CRF)

假设分类模型是一个条件概率分布P(Y | X )

通过特征函数t(y_{i-1},y_{i},X,i)s(y_{i},X,i)约束分布,

在约束条件下求条件概率分布P(Y | X )的最大熵,内部的极小化问题求解得:

隐马尔可夫模型(HMM)、最大熵模型、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)对比_第3张图片

外部极大化问题求解,通过求解参数\lambda\mu的极大似然估计。

 

你可能感兴趣的:(学习笔记)