《统计学习方法》笔记07:最大熵模型

foreword

最大熵模型,最初在吴军博士《数学之美》看到。那节题目为《不要把鸡蛋放在一个篮子里——最大熵模型》。吴军谈到最大熵原理在人们日常生活中不自觉用到.

比如掷一个色子,六面均匀的情况下6出现的概率为1/6,这几乎是所有人都会给出的答案,但为什么是1/6?其实其中蕴含了最大熵原理。吴军谈到这个模型挺复杂,搞了好长时间最终有科学家以指数形式表达出此模型,并给出最优化求解。

看了西瓜书没有讲最大熵,因此本节简单的将最大熵的原理,模型,学习等做简要笔记。

最大熵原理

在概率模型中,对某个问题的所有可能的模型中,熵最大的模型是最好的。这叫做最大熵原理,这是一个指导我们选择最优模型时的一个准则。

该原理认为:概率模型应当首先满足已有事实,也叫作约束条件,比如色子的6个面是均匀的;然后在没有更多信息情况下,不确定的部分都是等可能的。如6个面都是等概率出现。

用约束条件确定模型的集合,然后用最大熵原理从中选择最优模型。对随机变量X来说,其熵为:

H(p)=p(x)logp(x)

0H(p)log|X|

举例1:掷一个色子,六面均匀的情况下1-6出现的概率均为1/6;

举例2:因不均匀,该色子的3出现概率为1/2,则此时1-6出现的概率为1-2与4-6为1/10,3为1/2。即我们充分考虑已有事实,然后将未知事实等概率化(熵最大)。

最大熵模型

假设满足所有约束条件的模型集合为C,则集合中条件熵最大的模型称为最大熵模型。

最大熵模型的学习

可转化为具体求解对数似然函数极大化或者对偶函数极大化问题。

最大熵模型更一般的形式:

Pw(y|x)=1Zw(x)exp(i=1nwifi(x,y))

f(x,y) 为特征函数,描述某一个事实,为一个约束。

似然函数的最优化问题

逻辑回归、最大熵模型均属于对数线性模型。

其学习均可归结为以似然函数为目标函数的最优化问题。通常用迭代算法求解。

这时的目标函数为光滑的凸函数,保证可找到全局最优解。

· 改进迭代尺度法(improved iterative scaling,IIS)

· 牛顿法/拟牛顿法

· 梯度下降法

你可能感兴趣的:(机器学习笔记)