最大熵模型

转自廖先桃的最大熵PPT


熵:描述事物无序性的参数,熵越大则越无序。

熵在自然界的变化规律:熵增原理

当熵处于最小值,即能量集中程度最高、有效能量处于最大值时,整个系统也处于最有序的状态(大爆炸前?)。相反为最无序状态(宇宙的终结?混沌均匀。。。)

熵增原理预示着自然界越变越无序。


信息熵:事物不确定的程度(香农)

随机事件的信息熵:设随机变量ξ,它有A1, A2, A3, A4...,An种可能的结局,每个结局出现的概率分别为p1, p2, p3, p4..., pn,则信息熵为:

H() = -pi log pi
熵越大,事件越不确定

熵等于0,事件是确定的。

抛硬币的例子:

p(head)=0.5, p(tail)=0.5

当熵最大时,正反面的概率相等,事件最不确定

H(p)=-0.5*log2 0.5 + (-0.5*log2 0.5) = 1


最大熵理论

熵增原理

在无外力作用下,事物总是朝着最混乱的方向发展

事物是约束和自由的统一体

事件总是在约束下争取最大的自由权,这其实也是自然界的根本原则

在已知条件下,熵最大的事物,最可能接近它的真实状态


基于最大熵的统计建模:符合条件的分布中选择熵最大的分布作为最优分布

p* = arg max H(p)

需要解决的问题:

特征空间的确定--问题域

特征选择--寻找约束条件

建立统计模型--基于最大熵理论建立熵最大的模型


最大熵模型的求解

GIS算法(Generalized Iterative Scaling)

IIS算法(Improved Iterative Scaling)

BFGS算法

Input:特征函数,特征分布

Output:最优参数值,最优模型


最大熵工具包:

Maximum Entropy Modeling Toolkit for Python & C++, Zhang Le

两种运行方式:

命令行 & 函数接口


最大熵方法的缺点:

1. 时空开销大

2. 数据稀疏问题比较严重

3. 对语料库依赖性较强


与HMM的比较:

HMM的优点:

1. 算法简单,易于实现

2. 执行效率高

HMM的缺点:

1. 不易融合更多的语言信息

2. 对于某些复杂问题的处理效果不好



你可能感兴趣的:(最大熵模型)