统计学习方法 第6章 逻辑斯谛回归与最大熵模型(1)

统计学习方法 第6章 逻辑斯谛回归与最大熵模型(1)

逻辑斯谛分布

设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:

其中μ为位置参数,γ为形状参数。

逻辑斯谛分布的密度函数和分布函数:

二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是如下的条件概率分布:

对于给定的输入实例x,求得P(Y=1|x)和P(Y=0|x),比较两个条件概率值的大小,将实例x分到概率值较大的一类。

方便起见,将权值向量和输入向量扩充,即
w=(w(1),w(2),…,w(n),b)
x=(x(1),x(2),…,x(n),1)

此时逻辑斯谛回归模型为:

一个事件的几率是指事件发生的概率与不发生的概率的比值。若事件发生概率为p,则其对数几率为:

对逻辑斯谛回归而言:

即输出Y=1的对数几率是输入x的线性函数。

参数估计

可以应用极大似然估计法估计模型参数。设:

似然函数为:

对数似然函数:

对L(w)求极大值,得到w的估计值。

这样问题就变成了以对数似然函数为目标函数的最优化问题,通常采用梯度下降法和拟牛顿法。

最大熵原理

假设离散随机变量X的概率分布是P(X),则其熵是:

熵满足:

最大熵原理是概率模型的学习的一个准则,认为在所有可能的概率模型中,熵最大的模型是最好的模型。

最大熵原理认为要选择的概率模型首先需满足约束条件,在没有更多信息的情况下,那些不确定的部分是等可能的。

最大熵模型

给定训练数据集,可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布:

其中v表示出现频数,N表示样本容量。

用特征函数f(x,y)描述输入x和输出y之间的某一个事实:

特征函数f(x,y)关于经验分布

的期望值:

特征函数f(x,y)关于模型P(Y|X)与经验分布

的期望值:

若模型能够获取训练数据中的信息,即可假设这两个期望相等:

将该式作为模型学习的约束条件。

假设所有满足约束条件的模型集合为:

定义在条件概率分布P(Y|X)上的条件熵为:

则模型集合C中条件熵H(P)最大的模型称为最大熵模型。

你可能感兴趣的:(统计学习方法)