目录
1.概述
2.逻辑斯谛回归模型
2.1.逻辑斯谛分布
2.2.1.二线逻辑斯谛回归模型的条件概率分布
2.3.多项逻辑斯谛回归
2.3.1.多项逻辑斯谛回归模型
2.3.2.二元推广
2.4.对数线性模型
2.5.模型参数估计
3.最大熵模型
3.1.信息论相关的概念
3.1.1.信息量
3.1.2.信息和概率的关系
3.1.3.概率
3.1.4.熵
3.1.5.联合熵
3.1.6.条件熵
3.1.7.互信息
3.1.8.信息增益
3.1.9.相对熵(KL散度)
3.1.10.交叉熵
3.2.最大熵原理
4.模型学习
4.1.目标函数
4.1.1.逻辑斯谛回归模型目标函数
4.1.2.最大熵模型的目标函数
4.1.3.模型学习的最优化算法
参考:
逻辑斯谛回归是统计学习中经典的分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题就可以得到最大熵模型。逻辑斯谛回归与最大熵模型都属于对数线性模型。
设X为连续随机变量,X服从逻辑斯谛分布是指X具有以下的分布函数F(x)和密度函数f(x):
x为输入,y为输出{0,1},w,b分别表示权重和偏置,w.x表示内积:
假设离散型随机变量Y的取值集合是, 多项逻辑斯谛回归模型是:
计算K-1种可能的取值发生的概率相对取值K发生的概率的比值, 假设其取对数的结果是x的线性模型, 有 :
得到取值1,2,...,K-1的概率表示 :
上面红色部分有点像书上的(6.7), 又有K种可能取值概率和为1,可以得到下面推导 :
所以之前红色部分的表达可以表示为:
假设归一化因子Z有如下关系:
又对所有的P(Y=k|x)可以形成概率分布,有 :
可以得到:
所以:
上面这个叫Softmax,针对多项的情况也叫Softmax Regression。
逻辑斯谛回归模型学习时,对于给定的数据集T={(x1,y1),(x2,y2),...,(xn,yn)},yi={0, 1},可以使用极大似然估计法去估计模型的参数,从而的得到逻辑斯谛回归:模型。
似然函数表示为:
因为对数函数时单调递增的函数,最大化对数似然函数等价于最大化似然函数:
然后使用最大似然函数的方法即可求出解。
逻辑斯谛回归模型和最大熵模型,既可以看作是概率模型,又可以看作是非概率模型。
信息量是对信息的度量, PRML中有关于信息量的讨论, 信息是概率的单调函数.
符号保证了非负性. 低概率事件对应了高的信息量. 对数底选择是任意的, 信息论里面常用2, 单位是比特。
最大条件熵:
如果变量的集合是独立的,那么他们的联合分布可以分解为边缘分布的乘积
如果变量不是独立的,那么我们可以通过考察联合分布与边缘分布乘积之间的KL散度来判断他们是否"接近"于相互独立。
这被称为变量x和变量y之间的互信息.
互信息和条件熵之间的关系 可以把互信息看成由于知道y值而造成的x的不确定性的减小(反之亦然)。
刻画两个分布之间的差异(CNN中常用交叉熵) :
逻辑斯谛回归模型和最大熵模型学习归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。