李航 统计学习方法 第六章 逻辑斯谛回归与最大熵模型

李航 统计学习方法 第六章 逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型

X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X具有下列分布函数和密度函数:

F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(Xx)=1+e(xμ)/γ1

f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F^{\prime}(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ

逻辑斯谛曲线在中心附近增长较快, 在两端增长速度较慢, 形状参数 γ \gamma γ的值越小, 曲线在中心附近增长得越快.

二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)表示, 形式为参数化的逻辑斯谛分布.随机变量 X X X取值为实数, 随机变量 Y Y Y取值为1或0.通过监督学习的方法来估计模型参数.

对于给定的输入实例 x x x,按照

P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) P(Y=1|x)=\frac{exp(w\cdot x + b)}{1 + exp(w\cdot x + b)} P(Y=1x)=1+exp(wx+b)exp(wx+b) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x + b ) P(Y=0|x)=\frac{1}{1 + exp(w\cdot x + b)} P(Y=0x)=1+exp(wx+b)1,比较两个条件概率值的大小, 将实例 x x x分到概率值较大的那一类.考察逻辑斯谛回归模型的特点, 一个事件的几率, 是指该事件发生的概率和该事件不发生的概率的比值.如果事件发生的概率是 p p p, 那么该事件的几率就是 p 1 − p \frac{p}{1-p} 1pp, 该事件的对数几率或logit函数是 l o g i t ( p ) = log ⁡ p 1 − p logit(p)=\log\frac{p}{1-p} logit(p)=log1pp,对逻辑斯谛回归而言, log ⁡ P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x \log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x log1P(Y=1x)P(Y=1x)=wx.在逻辑斯谛回归模型中, 输出 Y = 1 Y=1 Y=1的对数几率是输入的线性函数.换一个角度, 考虑对输入 x x x进行分类的线性函数 w ⋅ x w\cdot x wx,其值域为实数域.可以将线性函数 w ⋅ x w\cdot x wx转换成概率: P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) P(Y=1|x)=\frac{exp(w\cdot x)}{1 + exp(w\cdot x)} P(Y=1x)=1+exp(wx)exp(wx)此时, 线性函数的值接近正无穷, 概率值接近1.

模型参数估计

逻辑斯谛回归模型学习时, 对于给定的训练数据集, 可以应用极大似然估计法去估计模型参数.设: P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x) P(Y=1x)=π(x),P(Y=0x)=1π(x), 似然函数是 ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod\limits^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi对数似然函数为 L ( w ) = ∑ i = 1 N [ y i ( w ⋅ x i ) − log ⁡ ( 1 + e x p ( w ⋅ x i ) ) ] L(w)=\sum\limits^N_{i=1}[y_i(w\cdot x_i)-\log(1+exp(w\cdot x_i))] L(w)=i=1N[yi(wxi)log(1+exp(wxi))], 对 L ( w ) L(w) L(w)求极大值, 得到 w w w的估计值.问题变成了以对数似然函数为目标函数的最优化问题, 逻辑斯谛回归学习中通常采用的方法是梯度下降法和拟牛顿法

多项逻辑斯谛回归

上面介绍的逻辑斯谛回归模型是二项分类模型, 用于二项分类, 可以将其推广为多项逻辑斯谛回归模型, 用于多类分类. 假设离散型随机变量 Y Y Y的取值集合是 { 1 , 2 , . . . , K } \{1, 2, ..., K\} {1,2,...,K}, 那么多项式逻辑斯蒂回归模型是 P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) P(Y=k|x)=\frac{exp(w_k\cdot x)}{1 + \sum\limits^{K-1}_{k=1}exp(w_k\cdot x)} P(Y=kx)=1+k=1K1exp(wkx)exp(wkx), P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) P(Y=K|x)=\frac{1}{1 + \sum\limits^{K-1}_{k=1}exp(w_k\cdot x)} P(Y=Kx)=1+k=1K1exp(wkx)1, 二项逻辑斯谛回归的参数估计法也可以推广到多项逻辑斯谛回归.

最大熵模型

由最大熵原理推到实现, 首先叙述一般的最大熵原理, 然后讲解最大熵模型的推导, 最后给出最大熵模型学习的形式.

最大熵原理

最大熵是概率模型学习的一个准则, 最大熵原理任务, 学习概率模型时, 在所有可能的概率模型中, 熵最大的模型也是最好的模型, 通常用约束条件来确定概率模型的集合, 所以, 最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型.

假设离散随机变量 X X X的概率分布是 P ( X ) P(X) P(X),则其熵是 H ( P ) = − ∑ x P ( x ) log ⁡ P ( x ) H(P)=-\sum\limits_x P(x)\log P(x) H(P)=xP(x)logP(x), 熵满足下列不等式 0 ≤ H ( P ) ≤ log ⁡ ∣ X ∣ 0\leq H(P) \leq\log|X| 0H(P)logX其中的 ∣ X ∣ |X| X X X X的取值个数, 当且仅当 X X X的分布是均匀分布时右边的等号成立, 也就是说, 当 X X X服从均匀分布时, 熵最大.

最大熵原理认为在没有更多信息的前提下, 不确定的部分都是等可能的, 最大熵原理通过熵的最大化来表示等可能性, 等可能性不容易操作, 而熵是一个可优化的数值指标.

最大熵模型的定义

假设分类模型是一个条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX), X ∈ X X\in\mathcal{X} XX表示输入, Y ∈ Y Y\in\mathcal{Y} YY表示输出, 这个模型表示的是对给定的输入 X X X, 以条件概率 P ( Y ∣ X ) P(Y|X) P(YX)输出 Y Y Y.

给定一个训练数据集, 希望通过最大熵原理选择最好的分类模型.

首先考虑模型应该满足的条件, 给定训练数据集, 可以确定联合分布 P ( X , Y ) P(X,Y) P(X,Y)的经验分布和边缘分布 P ( X ) P(X) P(X)的经验分布, 分别以 P ( X , Y ) ~ \tilde{P(X, Y)} P(X,Y)~ P ( X ) ~ \tilde{P(X)} P(X)~表示, 用特征函数 f ( x , y ) f(x, y) f(x,y)描述输入 x x x和输出 y y y之间的某一个事实.它是一个二值函数, 特征函数 f ( x , y ) f(x, y) f(x,y)关于经验分布 P ( X , Y ) ~ \tilde{P(X,Y)} P(X,Y)~的期望值, 特征函数 f ( x , y ) f(x,y) f(x,y)关于模型与经验分布的期望值用 E p ( f ) E_p(f) Ep(f)表示 E P ~ ( f ) = ∑ x , y P ~ ( x , y ) f ( x , y ) E_{\tilde{P}}(f)=\sum\limits_{x,y}\tilde{P}(x, y)f(x, y) EP~(f)=x,yP~(x,y)f(x,y), 同时有 E P ( f ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) f ( x , y ) E_P(f)=\sum\limits_{x,y}\tilde{P}(x)P(y|x)f(x, y) EP(f)=x,yP~(x)P(yx)f(x,y)如果模型能够获取训练数据中的信息, 那么可以假设两个期望值相等, 将这个关系作为模型的约束条件, 加入有 n n n个特征函数 f i ( x , y ) f_i(x, y) fi(x,y), 就有 n n n个约束条件.

假设满足所有约束条件的模型集合为

你可能感兴趣的:(回归,学习,机器学习)