统计学习方法-6逻辑回归

文章目录

  • 逻辑斯蒂回归模型
  • 最大熵模型
  • 模型学习的最优化算法

逻辑斯蒂回归模型

逻辑斯蒂分布

设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:

  • F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu )/\gamma }} F(x)=P(Xx)=1+e(xμ)/γ1
  • f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma }}{\gamma (1+e^{-(x-\mu)/\gamma })^{2}} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ

式中, μ 为位置参数, γ > 0 \mu为位置参数,\gamma>0 μ为位置参数,γ>0为形状参数

统计学习方法-6逻辑回归_第1张图片
二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是如下的条件概率分布:

  • P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)} P(Y=1∣x)=1+exp(wx+b)exp(wx+b)
  • P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x + b ) P(Y=0|x)=\frac{1}{1+exp(w\cdot x+b)} P(Y=0∣x)=1+exp(wx+b)1

这里, x ϵ R n 是输入, Y ϵ { 0 , 1 } 是输出, w ϵ R n 和 b ϵ R 是参数, w 称为权值向量, b 称为偏置, w ⋅ x 为 w 和 x 的内积 这里,x\epsilon R^{n}是输入,Y\epsilon\left\{0,1 \right\}是输出,w\epsilon R^{n}和b\epsilon R是参数,w称为权值向量,b称为偏置,w\cdot x为w和x的内积 这里,xϵRn是输入,Yϵ{0,1}是输出,wϵRnbϵR是参数,w称为权值向量,b称为偏置,wxwx的内积


逻辑斯蒂回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类

模型参数估计

应用极大似然估计法估计模型参数,从而可以得到逻辑斯蒂回归模型

多项逻辑斯蒂回归

通过上述二类分类,可以将其推广为多项逻辑斯蒂回归模型,用于多类分类。


假设离散型随机变量Y的取值集合是{1,2,…,K},那么多项逻辑斯蒂回归模型是:

  • P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) , k = 1 , 2 , . . . , K − 1 P(Y=k|x)=\frac{exp(w_{k}\cdot x)}{1+\sum_{k=1}^{K-1}exp(w_{k}\cdot x)},k=1,2,...,K-1 P(Y=kx)=1+k=1K1exp(wkx)exp(wkx),k=1,2,...,K1
  • P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e x p ( w k ⋅ x ) P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_{k}\cdot x)} P(Y=Kx)=1+k=1K1exp(wkx)1
  • 这里 x ϵ R n + 1 , w k ϵ R n + 1 这里x\epsilon R_{n+1},w_{k}\epsilon R_{n+1} 这里xϵRn+1,wkϵRn+1

最大熵模型

最大熵原理

最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。


假设离散随机变量X的概率分布是P(X),则熵是

  • H ( P ) = − ∑ x P ( x ) l o g P ( x ) H(P)=-\sum_{x}P(x)logP(x) H(P)=xP(x)logP(x)

  • 熵满足不等式: 0 ≤ H ( P ) ≤ l o g ∣ X ∣ 0\leq H(P)\leq log|X| 0H(P)logX


式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。也就是说,当X服从均匀分布时,熵最大。


最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件,在没有更多信息的情况下,那些不确定的部分都是“等可能的”

最大熵模型的定义

给定一个训练数据集,学习的目标是用最大熵原理选择最好的分类模型


最大熵模型:
假设满足所有约束条件的模型集合为:

  • C ≡ { P ϵ P ∣ E p ( f i ) = E p p ~ } C\equiv \left\{P\epsilon P|E_{p}(f_{i})=E_{p\tilde{p}} \right\} C{PϵPEp(fi)=Epp~}

定义在条件概率分布P(Y|X)上的条件熵为:

  • H ( P ) = − ∑ x , y P ~ ( x ) P ( y ∣ x ) l o g ( y ∣ x ) H(P)=-\sum_{x,y}\tilde{P}(x)P(y|x)log(y|x) H(P)=x,yP~(x)P(yx)log(yx)

则模型集合C中条件熵 H ( P ) H(P) H(P)最大的模型称为最大熵模型

最大熵模型的学习

一系列推导过程…

极大似然估计

一系列推导过程…

模型学习的最优化算法

逻辑斯蒂回归模型、最大熵模型归结为以似然函数为目标函数的最优化问题,通常通过迭代算法求解。

  • 常用求解全局最优解的方法:
  • 改进的迭代尺度法
  • 梯度下降法
  • 牛顿法或拟牛顿法

改进的迭代尺度法IIS、拟牛顿法BFGS

是一种最大熵模型学习的最优化算法

你可能感兴趣的:(机器学习,逻辑回归,机器学习)