逻辑斯蒂回归模型——逻辑斯蒂分布、二项逻辑斯蒂回归模型、参数估计与多项逻辑斯蒂回归

本笔记整理自李航老师《统计学习方法》第二版 第六章

逻辑斯蒂回归是统计学习中经典的分类方法。

逻辑斯蒂分布

F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ F(x) = P(X\leq x) = \frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(Xx)=1+e(xμ)/γ1
f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x) = F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^{2}} f(x)=F(x)=γ(1+e(xμ)/γ)2e(xμ)/γ
称分布函数为 F ( x ) F(x) F(x),密度函数为 f ( x ) f(x) f(x) 的连续随机变量 X X X 服从逻辑斯蒂分布。其中, μ \mu μ 为位置参数, γ > 0 \gamma > 0 γ>0 为形状参数。分布函数 F ( x ) F(x) F(x) 属于逻辑斯蒂函数,图形是一条 S S S 形曲线。该曲线以点 ( μ , 1 2 ) (\mu, \frac{1}{2}) (μ,21) 中心对称,即满足:
F ( − x + μ ) − 1 2 = − F ( x + μ ) + 1 2 F(-x+\mu)-\frac{1}{2} = -F(x+\mu)+\frac{1}{2} F(x+μ)21=F(x+μ)+21
该曲线在中心附近增长速度快,在两端增长速度慢。形状参数 γ \gamma γ 的值越小,曲线在中心附近增长越快。

逻辑斯蒂回归

满足以下条件概率分布:
P ( Y = 1 ∣ x ) = e x p ( ω ⋅ x + b ) 1 + e x p ( ω ⋅ x + b ) P(Y = 1 | x) = \frac{exp(\omega \cdot x + b)}{1+exp(\omega \cdot x + b)} P(Y=1x)=1+exp(ωx+b)exp(ωx+b)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( ω ⋅ x + b ) P(Y = 0 | x) = \frac{1}{1+exp(\omega \cdot x + b)} P(Y=0x)=1+exp(ωx+b)1
对于给定的输入实例 x x x,按照上式求得 P ( Y = 1 ∣ x ) P(Y = 1 | x) P(Y=1x) P ( Y = 0 ∣ x ) P(Y = 0 | x) P(Y=0x)。比较两个概率值的大小,将实例 x x x 分到概率值较大的那一类。

模型参数估计

应用极大似然估计法估计模型参数。
设:
P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y = 1 | x) = \pi(x), P(Y = 0 | x)=1-\pi(x) P(Y=1x)=π(x),P(Y=0x)=1π(x)
似然函数为:
∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^{N} [\pi(x_{i})]^{y_{i}}[1-\pi(x_{i})]^{1-y_{i}} i=1N[π(xi)]yi[1π(xi)]1yi
对数似然函数为:
L ( ω ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( ω ⋅ x i ) − l o g ( 1 + e x p ( ω ⋅ x i ) ) ] L(\omega) = \sum_{i=1}^{N}[y_{i}log\pi(x_{i}) + (1-y_{i})log(1-\pi(x_{i}))] \\ = \sum_{i=1}^{N}[y_{i}log\frac{\pi(x_{i})}{1-\pi(x_{i})} + log(1-\pi(x_{i}))] \\ =\sum_{i=1}^{N}[y_{i}(\omega \cdot x_{i}) - log(1+exp(\omega \cdot x_{i}))] L(ω)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]=i=1N[yilog1π(xi)π(xi)+log(1π(xi))]=i=1N[yi(ωxi)log(1+exp(ωxi))]
L ( ω ) L(\omega) L(ω) 求极大值,得到 ω \omega ω 的估计值,进而求出样本 x x x 的概率估计。这样问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯蒂回归学习中通常采用梯度下降法及拟牛顿法。

多项逻辑斯蒂回归

用于多类分类,模型为:
P ( Y = k ∣ x ) = e x p ( ω k ⋅ x ) 1 + ∑ k = 1 K − 1 e x p ( ω k ⋅ x ) P(Y=k|x) = \frac{exp(\omega_{k} \cdot x)}{1 + \sum_{k=1}^{K-1}exp(\omega_{k} \cdot x)} P(Y=kx)=1+k=1K1exp(ωkx)exp(ωkx)

P ( Y = K ∣ x ) = 1 1 + ∑ i = 1 K − 1 e x p ( ω k ⋅ x ) P(Y=K|x) = \frac{1}{1+\sum_{i=1}^{K-1}exp(\omega_{k}\cdot x)} P(Y=Kx)=1+i=1K1exp(ωkx)1

你可能感兴趣的:(机器学习,机器学习,python,逻辑回归,算法,数据分析)