统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)

一、知识梳理

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第1张图片

二、最大熵模型

1、原理

最大熵原理是统计学中的一个概念,《数学之美》中对最大熵模型的概念举的是关于投资的例子,就是平常我们说的不要把鸡蛋放在一个篮子里,均分一下熵才比较大嘛。简单一点说就是,保留全部的不确定性,将风险降到最小。复杂一点,对于一个随机事件的概率分布进行预测时,预测应当满足全部已知的条件,而对未知情况不要做任何主观假设,在这种情况下,概率分布最均匀,预测的风险最小。

2、模型

1)基本概念

最大熵模型假设分类模型是一个条件概率分布P(Y|X),X为输入特征,Y为类标。给定一个数据集T,学习的目标就是用最大熵模型选择一个最好的模型。

 联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第2张图片

2)模型 

最大熵模型的目标函数是带有约束的最优化问题,根据本人下一篇博客中对拉格朗日对偶性的学习,可以将这个问题转化为无约束最优化的问题。

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第3张图片

 

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第4张图片

 3)模型推导

(1)约束方面

在给定训练集的情况下,我们可以得到总体联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布。特征函数f(x,y)表示x和y之间的关系,在最大熵模型中作为模型的约束条件,我们希望联合分布的经验风险(真实规律)等于条件分布的经验风险(咱们根据数据训练得到的),因此有:再强调一遍这是个约束,是模型成立的前提

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第5张图片

 假如有n个特征函数,那么就有n个约束条件。假设满足所有约束条件的集合为:

(2)策略方面

我们是根据数据训练模型,只能通过数据得到条件概率,因此使用条件概率作为目标函数(如果知道联合概率就不需要训练模型了)。因此,定义在条件概率分布P(Y|X)上的条件熵为: 

 我们的目标就是找到使得H(P)最大的时候所对应的P(y|x),这里可以对H(P)加了个负号求极小值,这样做的目的是为了使−H(P)为凸函数,方便使用凸优化的方法来求极值。

4)模型求解推导

由于模型是带约束的最优化的问题,因此使用格朗日对偶转化为无约束最优化的问题。首先,引进拉格朗日乘子w0,w1,…,wn,定义该函数对应的拉格朗日函数:

最优化的原始问题(左)与对偶(右)为:

                                                                           

求解对偶问题内部的极小化问题minL(P,w),得到的解是关于w的函数,将其记作 

 现在,已经熟悉多了,可以开始求偏导啦

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第6张图片

又因为(不解释,不得1就怪了)

代入得到条件概率 

 进而得到

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第7张图片

令Zw(x)表示exp(1-w0),得到:

统计学习方法——(第六章)二项与多项逻辑回归与最大熵模型详解与推导(上)_第8张图片

5)最大熵模型的优缺点 

优点:

  • 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高。
  • 可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度

缺点:

由于约束条件的个数往往是跟样本的数量有关,因此当样本数量越来越多的时候,对应的约束条件也会相应增加,这样就会导致计算量越来越大,迭代速度越来越慢,这在实际应用中很难。

 

 

你可能感兴趣的:(算法笔记(蓝皮书,西瓜书,花书,CV))