逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归是经典的分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。这两个模型都属于对数线性模型

逻辑斯蒂回归模型:分布函数图像是一条S曲线,值域的范围在0~1,采用极大似然估计法估计模型参数,首先确定其似然函数,然后再对似然函数取对数,求该似然函数的最大值,得到w的估计值

最大熵原理:最大熵原理表述为在满足约束条件下模型集合中选择熵最大的模型 H(P)= -∑P(x)logP(x)  熵满足: 

0 ≤H(P)≤log|X|  |X|是X的取值个数,当且仅当X的分布式均匀分布时,右边的等号成立,即此时的熵最大,最大熵原理认为要选择的模型首先必须满足已有的事实,即约束条件,在没有更多的信息下,那些不确定的部分是等可能的。

最大熵模型:假设分类模型是一个条件概率分布 P(X|Y) X表示输入,Y表示输出,该模型表示的是对于给定的输入X,以条件概率P(Y|X)输出Y

首先我们可以通过已有数据获得联合分布P(X,Y)和边缘分布P(X)的经验分布,用特征函数f(x,y)来描述输入x与输出y之间的额某一个事实,当x,y满足这个事实时,f(x,y)为1,不满足时为0. 特征函数关于经验分布P(X,Y)的期望值,用Ep'(f)表示  

Ep'(f)=∑x,y P'(x,y)f(x,y) ,特征函数关于模型P(Y|X)与经验分布P'(X)的期望值, ∑P'(x)P(y|x)f(x,y)

如果模型能够获得训练数据中的信息,那么就可以假设这两个期望值是相等的,即 Ep(f) = Ep'(f)  定义在条件概率分布P(X|Y)上的条件熵为 H(P) = -  ∑P'(x)P(y|x)logP(y|x) C表示满足所有约束条件的模型集合,所以C这种条件熵最大的模型就是最大熵模型 

最大熵模型的学习:该模型的学习可以形式化为约束最优化问题,将其转化为拉格朗日函数,然后进行最大值求解,这里涉及到对偶函数的计算


你可能感兴趣的:(统计学习方法)