统计学习方法 李航---第6章 逻辑回归与最大熵模型

第6章 逻辑回归与最大熵 模型
逻辑回归(logistic regression)是统计学习中的经典分类方法。最大嫡是 概率模型学习的一个准则将其推广到分类问题得到最大 模型(maximum entropy  model)。逻辑回归模型与最大 模型都属于对数线性模型。

6.1 逻辑回归模型

定义6.1(逻辑分布):设X是连续随机变量,X服从逻辑斯谛分布是指
X具有下列分布函数和密度函数
式中,u为位置参数,r>0为形状参数。
逻辑分布的密度函数f(x)和分布函数F(x)的图形如图所示。 分布函 数属于逻辑函数,其图形是一条S形曲线(sigmoid curve)。 该曲线以点(u, 1/2) 为中心对称,即满足

统计学习方法 李航---第6章 逻辑回归与最大熵模型_第1张图片
曲线在中心附近增长速度较快,在两端增长速度较慢形状参数Y的值越小,曲 线在中心附近增长得越快.
 
二项逻辑回归模型(binomial logistic regression model)是一种分类模型,用于二类分类。 由条件概率分布P(Y|X)表示,形式为参数化的逻辑分布。这里,随机变量X 取值为实数,随机变量Y取值为1或0。
定义6.2 (逻辑回归模型):二项逻辑回归模型是如下的条件概率 分布:
w称为权值向 量,b称为偏置,w.x为w和x的内积。 将权值向量和输入向量加以扩充为 w=(w, b), x =(x,1) ,逻辑回归模型如下
 
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值, 如果事件发生的概率是p,那么该事件 的对数几率(log odds)或logit函数是
对逻辑回归而言,
这就是说,在逻辑回归模型中, 输出Y=1的对数几率是由输入x的线性函数表示的模型。

模型参数估计

可以应用极大似然估计法估计模型参数,对数似然函数为:
统计学习方法 李航---第6章 逻辑回归与最大熵模型_第2张图片
这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑回 归学习中诵常采用梯度下降法及拟牛顿法。
 
多项逻辑回归模型(multi-nominal logistic regression model),用于多类分类,模型如下:
统计学习方法 李航---第6章 逻辑回归与最大熵模型_第3张图片
 
二项逻辑回归的参数估计法也可以推广到多项逻辑回归。

6.2 最大熵模型

最大熵模型(maxunum entropy model)由最 大熵 原理推导实现
最大 原理 是概率模型学习的一个准则。最 大熵 原理认为,学习概率模型时, 在所有可能的概率模型(分布)中, 最大的模型是最好的模型。通常用约束条 件来确定概率模型的集合,所以,最大 原理也可以表述为在满足约束条件的模 型集合中选取 最大的模型。均匀分布时,熵最大。
最大 原理 认为要选择的概率模型首先必须满足约 束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能的”。 最大 原理通过 的最大化来表示等可能性.“等可能”不容易操作,而 则是一个 可优化的数值指标.

最大模型的定义

 

给定训练数据集,可以确定联合分布P(X,Y) 的经验分布和边缘分布P(X)的经验分布,
其中,v(X=x,Y=y)表示训练数据中样本(x,y)出现的频数,v(X = x)表示训练 数据中输入x出现的频数,N表示训练样本容量。     
用特征函数(feature  function) f(x,y) 描述输入x和输出Y之间的某一个事 实。其定义是
特征函数 f(x,y)关于经验分布P ~(X,Y)的期望值,用E P ~(f)表示:
            
特征函数 f(x,y) 关于模型P(Y|X)与经验分布P~(X)的期望值,用EP(f)表示,
约束条件为

 

定义6 .3(最大 模型):假设满足所有约束条件的模型集合为
定义在条件概率分布P(Y|X)上的条件
则模型集合C中条件 H(P)最大的模型称为最大 模型

最大模型的学习

最大 模型的学习过程就是求解最大 模型的过程,可以 形式化为约束最优化问题:
统计学习方法 李航---第6章 逻辑回归与最大熵模型_第4张图片转化为  统计学习方法 李航---第6章 逻辑回归与最大熵模型_第5张图片
将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求 解对偶问题求 解始问题。
统计学习方法 李航---第6章 逻辑回归与最大熵模型_第6张图片  统计学习方法 李航---第6章 逻辑回归与最大熵模型_第7张图片

 

最大 模型学习中 的对偶函数极大化等价于最大 模型的极大似然估计, 最大 模型的学习问题就转换为具体求解对数似然函数极大化或对偶 函数极大化的问题。
对数似然函数为:
目标函数为:
最大 模型的一般形式为:
 

 

6.3 模型学习的最优化算法

基于 改进的迭代尺度法 (improved iterative scaling, IIS) 最大模型学习算法
IIS的想法是假设最大嫡模型当前的参数向量是w=(w 1, ..., w n) T
希望找到一个新的参数向量 w + sigmal =( w 1+sigmal 1 , ..., w n + sigmal n ) T ,使得模型的对数 似然函数值增大。如果能有这样一种参数向量更新的方法:w--> w + sigma, 那么就 可以重复使用这一方法,直至找到对数似然函数的最大值。
统计学习方法 李航---第6章 逻辑回归与最大熵模型_第8张图片
基于拟牛顿法(BFGS)最大模型学习算法
统计学习方法 李航---第6章 逻辑回归与最大熵模型_第9张图片

 

 



来自为知笔记(Wiz)



你可能感兴趣的:(机器学习)