《统计学习方法》--逻辑斯谛回归模型

《统计学习方法》第六章–逻辑斯谛回归模型

逻辑斯谛回归概述

逻辑斯谛回归的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数。而最佳拟合参数就是在训练分类器时,通过最优化算法获得。

逻辑斯谛分布

X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X具有以下分布函数和概率密度函数: F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(Xx)=1+e(xμ)/γ1 f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ其中 μ \mu μ为位置参数, γ > 0 \gamma \gt 0 γ>0为形状参数

二项式逻辑斯谛回归模型

P ( Y = 1 ∣ x ) = e x p ( ω ⋅ x + b ) 1 + e x p ( ω ⋅ x + b ) P(Y=1|x) = \frac{exp(\omega\cdot x+b)}{1+exp(\omega\cdot x+b)} P(Y=1x)=1+exp(ωx+b)exp(ωx+b) P ( Y = 0 ∣ x ) = 1 1 + e x p ( ω ⋅ x + b ) P(Y=0|x) = \frac{1}{1+exp(\omega\cdot x+b)} P(Y=0x)=1+exp(ωx+b)1
这里 x ∈ R n x\in R^n xRn是输入, Y ∈ { 0 , 1 } Y\in\{0,1\} Y{0,1}是输出, ω ∈ R n \omega\in R^n ωRn b ∈ R n b\in R^n bRn是参数, ω \omega ω称为权值向量, b b b称为偏置, ω ⋅ x \omega\cdot x ωx ω \omega ω X X X的內积

对于给定的输入实例 X X X,按照上式可以求得实例属于两种类别的概率,逻辑斯谛回归模型比较两个概率的大小,将实例归入概率较大的那一类中。

模型参数估计

对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2)...(x_N,y_N)\} T={(x1,y1),(x2,y2)...(xN,yN)}其中 x i ∈ R n , y i ∈ { 0 , 1 } x_i\in R^n,y_i\in \{0,1\} xiRn,yi{0,1}可以应用极大似然估计来得到模型的参数,从而得到逻辑斯谛回归模型。

P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x) P(Y=1x)=π(x),P(Y=0x)=1π(x)则可得似然函数 ∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} i=1N[π(xi)]yi[1π(xi)]1yi对数似然函数为: L ( ω ) = ∑ i = 1 N [ y i log ⁡ π ( x ) + ( 1 − y i log ⁡ ( 1 − π ( x i ) ) ) ] L(\omega)=\sum_{i=1}^N[y_i\log\pi(x)+(1-y_i\log(1-\pi(x_i)))] L(ω)=i=1N[yilogπ(x)+(1yilog(1π(xi)))]即最终变成求解 L ( ω ) L(\omega) L(ω)极大值的问题。一般可以采用梯度下降或者是拟牛顿法求解

最后求出 ω \omega ω的极大似然估计值即可得到逻辑斯谛回归模型。

多项式逻辑斯谛回归

二项式逻辑斯谛回归应用于二类分类问题,将其推广到多项式逻辑斯谛回归就可以应用于多类分类问题。

假设离散型随机变量 Y Y Y的取值集合是 { 1 , 2 , . . . , K } \{1,2,...,K\} {1,2,...,K}则多项式逻辑斯谛回归模型是 P ( Y = k ∣ x ) = exp ⁡ ( ω k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ⁡ ( ω k ⋅ x ) , k = 1 , 2 , 3... , K − 1 P(Y=k|x)=\frac{\exp(\omega_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(\omega_k \cdot x)}, k=1,2,3...,K-1 P(Y=kx)=1+k=1K1exp(ωkx)exp(ωkx),k=1,2,3...,K1 P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ⁡ ( ω k ⋅ x ) P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(\omega_k \cdot x)} P(Y=Kx)=1+k=1K1exp(ωkx)1这里 x ∈ R n + 1 , ω k ∈ R n + 1 x\in R^{n+1},\omega_k\in R^{n+1} xRn+1,ωkRn+1这是将偏置项拓展到权值向量 ω \omega ω和输入向量 x x x中。

逻辑斯谛回归模型和线性回归模型,SVM模型的异同

总体而言,三者都属于线性模型,只是通过计算得到的线性平面的用法不同。逻辑斯谛回归和SVM是分类模型,线性回归属于回归模型。

关于三种模型异同的相关文章:

  • 线性模型(线性回归、感知机和逻辑斯谛回归)
  • SVM简介、SVM与感知机、逻辑回归LR的区别
  • 逻辑斯蒂回归和感知机模型、支持向量机模型对比

你可能感兴趣的:(大数据与网络安全,《统计学习方法》笔记)