最大熵与逻辑回归的等价性

一:前言

update:2015/11/9

获得了一些新的理解,指数簇分布的最大熵等价于其指数形式的最大似然界。二项式的最大熵解等价于二项式指数形式(sigmoid)的最大似然,多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然,因此为什么用sigmoid函数,那是因为指数簇分布最大熵的特性的必然性。假设分布求解最大熵,引入拉格朗日函数,求偏导数等于0,直接求出就是sigmoid函数形式。还有很多指数簇分布都有对应的最大似然界。而且,单个指数簇分布往往表达能力有限,就引入了多个指数簇分布的混合模型,比如高斯混合,引出了EM算法。想LDA就是多项式分布的混合模型。一下子豁然开朗了好多

大概了解过逻辑回归与最大熵模型有些关系,但是一直没有理清楚。这次稍微深入理解了一下。逻辑回归是最大熵对应类别为两类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵。下面会详细的进行证明。

本文只是一个copy版本,内容源自:

首先我们引入一些符号。假定输入是一个n维空间的实数向量。(考虑到公式在这里展示不好看,以图片的格式呈现)

最大熵与逻辑回归的等价性_第1张图片

最大熵与逻辑回归的等价性_第2张图片

最大熵与逻辑回归的等价性_第3张图片

最大熵与逻辑回归的等价性_第4张图片

最大熵与逻辑回归的等价性_第5张图片

最大熵与逻辑回归的等价性_第6张图片

最大熵与逻辑回归的等价性_第7张图片最大熵与逻辑回归的等价性_第8张图片最大熵与逻辑回归的等价性_第9张图片

这个公式不是凭空出来的,其背后有信息论基础。于是我们得到了(10),在受公式(9)约束的条件下,求(10)的极大值。

A)     首先引入拉格朗日函数

最大熵与逻辑回归的等价性_第10张图片

最大熵与逻辑回归的等价性_第11张图片


你可能感兴趣的:(算法)