更多文章可以访问我的博客Aengus | Blog
逻辑斯谛回归(Logistic Regression)模型是经典的分类方法,而最大熵则是概率模型中学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。两者都属于对数线性模型。
逻辑斯谛模型
逻辑斯谛分布
设是连续随机变量,服从逻辑斯谛分布是指具有以下分布函数和密度函数:
其中,是位置参数,为形状参数。
逻辑斯谛分布的密度函数和分布函数如下所示。分布函数属于逻辑斯谛函数,其图像是一条形曲线,该曲线以为中心对称,即满足:
曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数的值越小,曲线在中心附近增长越快。
二项逻辑斯谛回归
二项逻辑斯谛回归模型是一种分类模型,由条件概率分布表示,形式为参数化的逻辑斯谛分布,的取值范围为实数,的取值为1或0,那么如下的条件概率分布:
其中表示内积,,和是参数,称为权值向量,称为偏置。
对于输入的实例,逻辑斯谛模型计算其条件概率与,通过比较大小将分到概率值大的那一类。
有时为了方便,将权值向量与输入实例进行扩充,仍记作,即,,这时,逻辑斯谛模型就变成了:
模型特点
一个事件的几率是指该事件发生的概率和不发生的概率的比值。如果一个事件发生的概率是,那么该事件的几率就是,该事件的对数几率就是:
对于逻辑斯谛模型来说,的几率就是:
也就是说,在逻辑斯谛模型中,输出的对数几率是输入的线性函数。考虑到公式
可以得到,线性函数的值越接近于正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。
多项逻辑斯谛回归
设随机变量的取值集合为,那么多项逻辑斯谛回归模型是:
其中,。
模型参数估计
可以应用极大似然估计模型参数。
设:
似然函数为:
对数似然函数为:
对求极大值,得到的估计值。这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
最大熵模型
最大熵原理认为,学习概论模型时,在所有可能的概率模型分布中,熵最大的模型时最好的模型。
假设离散随机变量的概率分布是,则其熵为:
熵满足下列不等式:
式中,是的取值个数,当且仅当的分布是均匀分布时右边的等号成立,这就是说服从均匀分布时,熵最大。换句话说,最大熵原理认为要选择的概率模型首先必须满足已有的事实,在没有更多信息的情况下,那些不确定的部分都是等可能的。
定义
首先考虑模型应该满足的条件。给定数据集,可以确定联合分布的经验分布和的经验分布,记作和:
表示样本出现的频数;表示训练数据中样本出现的频数,代表训练样本容量。
特征函数描述输入与输出是否满足某一事实:
代表特征函数对的期望值:
代表关于模型特征函数关于模型与的期望值:
如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值想等,即:
将上式作为模型学习的约束条件,假设有个特征函数,那么就有个约束条件。
设满足所有约束条件的模型集合为:
定义在条件概率分布上的条件熵为:
则模型集合中条件熵最大的模型称为最大熵模型。式中的对数为自然对数。
模型的学习
最大熵模型的学习也就是求解最大熵模型的过程。对于给定的数据集以及特征函数,最大熵模型的学习等价于约束最优化问题:
按照最优化问题的习惯,将求最大值问题改写为等价的求最小值问题:
这里,将约束最优化的原始问题转化为无约束最优化的对偶问题。首先,引入拉格朗日乘子,定义拉格朗日函数:
最优化的原始问题是,对偶问题是。
首先,求解对偶问题的极小化问题。是的函数,将其记作:
称为对偶函数,同时将其解记作:
具体地,求对的偏导数并令其等于0,在的情况下,解得:
由于,得:
其中:
称为规范化因子。
然后求解对偶问题外部的极大化问题,
将其解记为,即,也就是说,可以应用最优化算法求对偶函数的极大化,得到,即最大熵模型。
最优化算法
改进的迭代尺度算法IIS
假设输入特征函数,经验分布,模型,按以下步骤求解:
(1)对所有,取初值;
(2)对每一,
(a)令是方程
的解,其中:
(b)更新值:;
(3)如果不是所有的都收敛,重复(2)步;
拟牛顿法
对于最大熵模型而言,
目标函数:
梯度:
其中
响应的拟牛顿法BFGS如下:
假设输入特征函数,经验分布,目标函数,梯度,精度要求,按以下步骤求解:
(1)选定初始点,取为正定对称矩阵,置;
(2)计算。若,则停止计算,得;否则转(3);
(3)由,求出;
(4)一维搜索:求使得:
(5)置;
(6)计算,若,则停止计算,得;否则,按下式求出:
其中,
(7)置,转(3);
参考
李航《统计学习方法(第二版)》第六章