统计概率模型-最大熵马尔科夫模型

统计概率模型

1、高斯判别分析
2、朴素贝叶斯
3、隐马尔可夫模型
4、最大熵马尔科夫模型
5,条件随机场
6,马尔科夫决策过程

四、最大熵马尔科夫模型

​ 有最大熵模型和隐马尔可夫模型的基础,再看最大熵马尔科夫模型就直观多了。在隐马尔可夫模型中, p(ot,it|it1)=p(ot|it)p(it|it1) p ( o t , i t | i t − 1 ) = p ( o t | i t ) p ( i t | i t − 1 ) ,即 it1 i t − 1 ot o t 之间独立作用 it i t 。在最大熵马尔科夫模型中则没有这一假设,而直接采用条件概率的形式 p(it|ot,it1) p ( i t | o t , i t − 1 ) 输出模型。

​ 结合最大熵模型,不考虑整个序列时,第 t t 时刻的状态可以看作是一个分类问题,采用最大熵模型,由 it1 i t − 1 ot o t it i t 构成分类模型 p(it=i|otit1) p ( i t = i | o t , i t − 1 ) ,有最大熵模型的结论,我们知道分类模型是一个关于 λ λ 的函数,表达式如下:

p(it=i|otit1)=exp(aλafa(ot,it=i))z(ot,it1)z(ot,it1)=iexp(aλafa(ot,it=i)) p ( i t = i | o t , i t − 1 ) = e x p ( ∑ a λ a f a ( o t , i t = i ) ) z ( o t , i t − 1 ) z ( o t , i t − 1 ) = ∑ i e x p ( ∑ a λ a f a ( o t , i t = i ) )

其中 fa(ot,it=i)) f a ( o t , i t = i ) ) 是联合标签 it=i i t = i 特征模板, λa λ a 是特征模板的权重, z(ot,it1) z ( o t , i t − 1 ) 是联合所有可能的标签 it=i,i{1..n} i t = i , i ∈ { 1.. n } 特征模板求和,表示归一化因子。对于参数 λ λ 的求解,可以采用最大熵模型的使用的优化算法,但是值得注意的是,在优化求解过程中,每个时刻单独归一化,不考虑序列性。

​ 这里,由于笔者之前的误解,对于最大熵模型的特征模板的概率求解采用最大似然估计的方式直接对特征模板进行统计,以其频率作为概率,结果发现还是有效。其中原因可能是我的这种统计方式是基于期望最大化的思想,运用最大似然估计得到模型参数正好是统计频率。

p(it=i|otit1)=afa(ot,it=i)iafa(ot,it=i) p ( i t = i | o t , i t − 1 ) = ∑ a f a ( o t , i t = i ) ∑ i ∑ a f a ( o t , i t = i )

在状态预测中,考虑最大化整个序列的概率,意味着目标函数如下:
maxt=1Tp(it=i|otit1),i=1..n max ∏ t = 1 T p ( i t = i | o t , i t − 1 ) , i = 1.. n

目标函数也就是求解一条最优的状态转移路径,同样可以采用Viterbi算法。

你可能感兴趣的:(机器学习,机器学习)