转自廖先桃的最大熵PPT
熵:描述事物无序性的参数,熵越大则越无序。
熵在自然界的变化规律:熵增原理
当熵处于最小值,即能量集中程度最高、有效能量处于最大值时,整个系统也处于最有序的状态(大爆炸前?)。相反为最无序状态(宇宙的终结?混沌均匀。。。)
熵增原理预示着自然界越变越无序。
信息熵:事物不确定的程度(香农)
随机事件的信息熵:设随机变量ξ,它有A1, A2, A3, A4...,An种可能的结局,每个结局出现的概率分别为p1, p2, p3, p4..., pn,则信息熵为:
H() = -∑pi log pi
熵越大,事件越不确定
熵等于0,事件是确定的。
抛硬币的例子:
p(head)=0.5, p(tail)=0.5
当熵最大时,正反面的概率相等,事件最不确定
H(p)=-0.5*log2 0.5 + (-0.5*log2 0.5) = 1
最大熵理论
熵增原理
在无外力作用下,事物总是朝着最混乱的方向发展
事物是约束和自由的统一体
事件总是在约束下争取最大的自由权,这其实也是自然界的根本原则
在已知条件下,熵最大的事物,最可能接近它的真实状态
基于最大熵的统计建模:符合条件的分布中选择熵最大的分布作为最优分布
p* = arg max H(p)
需要解决的问题:
特征空间的确定--问题域
特征选择--寻找约束条件
建立统计模型--基于最大熵理论建立熵最大的模型
最大熵模型的求解
GIS算法(Generalized Iterative Scaling)
IIS算法(Improved Iterative Scaling)
BFGS算法
Input:特征函数,特征分布
Output:最优参数值,最优模型
最大熵工具包:
Maximum Entropy Modeling Toolkit for Python & C++, Zhang Le
两种运行方式:
命令行 & 函数接口
最大熵方法的缺点:
1. 时空开销大
2. 数据稀疏问题比较严重
3. 对语料库依赖性较强
与HMM的比较:
HMM的优点:
1. 算法简单,易于实现
2. 执行效率高
HMM的缺点:
1. 不易融合更多的语言信息
2. 对于某些复杂问题的处理效果不好