西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)

西瓜书研读系列:
西瓜书研读——第三章 线性模型:一元线性回归

西瓜书研读——第三章 线性模型:多元线性回归

  • 主要教材为西瓜书,结合南瓜书,统计学习方法,B站视频整理~
  • 人群定位:学过高数会求偏导、线代会矩阵运算、概率论知道啥是概率
  • 原理讲解,公式推导,课后习题,实践代码应有尽有,欢迎订阅

3.2.4 对数线性回归

另一方面,有时像上面这种原始的线性回归可能并不能满足需求,例如:y值并不是线性变化,而是在指数尺度上变化。这时我们可以采用线性模型来逼近y的衍生物(从一种物质到另一种划分更细的物质)

例如 l n   y ln \,y lny,这时衍生的线性模型如下所示,实际上就是相当于将指数曲线投影在一条直线上,如下图所示:

西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第1张图片

例如: ln ⁡ y = w T x + b \ln{y} = \boldsymbol{w}^{\mathbf{T}}\boldsymbol{x}+b lny=wTx+b,这就是对数线性回归,题实际上时在试图让 e w T x + b e^{\boldsymbol{w}^{\mathbf{T}}\boldsymbol{x}+b} ewTx+b逼近 y y y

更一般地,考虑可微函数 g ( ⋅ ) g(·) g(),其反函数为 g − 1 g^{-1} g1,令
y = g − 1 ( w T x + b ) (3.15 ) y=g^{-1}(w^Tx+b) \tag{3.15 } y=g1(wTx+b)(3.15 )
就得到了“广义的线性模型”(generalized linear model),其中, g ( ⋅ ) g(·) g()称为联系函数(link function)。

对数函数为 g ( ⋅ ) = l n ( ⋅ ) g(·)=ln(·) g()=ln()时的特例。

广义线性模型的参数估计常通过加权最小二乘法或极大似然法进行

3.3 线性几率回归

回归就是通过输入的属性值得到一个预测值,从而进行回归学习。那如何进行分类呢?

只需找一个单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来。线性几率回归正是研究这样的问题。对数几率引入了一个对数几率函数(logistic function)**,将预测值投影到0-1之间,**从而将线性回归问题转化为二分类问题。
σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 +e ^{-x}} σ(x)=1+ex1

西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第2张图片

3.3.1 联系函数

单位阶跃函数(unit-step function)
y = { 0 , z < 0 ; 0.5 , z = 0 ; 1 , z > 0 ; y = \begin{cases} 0, & z<0; \\\\ 0.5, & z=0; \\\\ 1, & z>0; \end{cases} y= 0,0.5,1,z<0;z=0;z>0;

  • 若预测值大于零判为正例
  • 若预测值小于零判为反例
  • 若预测值等于零则可任意判别

缺点是不连续性

对数几率函数(logistic function)

一定程度上近似单位阶跃函数的“替代函数”(surrogate function),并希望它单调可微

  • Sigmoid函数(最为重要的代表)

    • 形似 S 的函数,它将 z z z 值转化为一个接近 0 或 1 的 y y y 值,并且其输出值在 z = 0 z=0 z=0 附近变化很陡
    • y = 1 1 + e − z y = \frac{1}{1+e^{-z}} y=1+ez1

这里确定一下Sigmoid函数是怎么来的,先补充一些知识:


指数族分布

指数族 (Exponential family) 分布是一类分布的总称, 该类分布的分布律(或者概率密 度函数)的一般形式如下:
p ( y ; η ) = b ( y ) exp ⁡ ( η T T ( y ) − a ( η ) ) p(y ; \eta)=b(y) \exp \left(\eta^{T} T(y)-a(\eta)\right) p(y;η)=b(y)exp(ηTT(y)a(η))
其中, η \eta η 称为该分布的自然参数; T ( y ) T(y) T(y) 为充分统计量,视具体的分布而定,通常是等于随 机变量 y \mathrm{y} y 本身; a ( η ) a(\eta) a(η) 为配分函数; b ( y ) b(y) b(y) 为关于随机变量 y \mathrm{y} y 的函数,常见的伯努利分布和正态分布均属于指数族分布。

证明:伯努利分布(两点分布、0-1分布)是指数族分布,如果记成功概率为p,则失败概率为1-p,伯努利分布律为:
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y p(y)=\phi^{y}(1-\phi)^{1-y} p(y)=ϕy(1ϕ)1y
其中 y ∈ { 0 , 1 } y \in\{0,1\} y{0,1} ϕ \phi ϕ 为 y=1 的概率,即 P ( y = 1 ) = ϕ P(y=1)=\phi P(y=1)=ϕ , 对上式恒等变形可得:

p ( y ) = ϕ y ( 1 − ϕ ) 1 − y = exp ⁡ ( ln ⁡ ( ϕ y ( 1 − ϕ ) 1 − y ) ) = exp ⁡ ( y ln ⁡ ( ϕ ) + ( 1 − y ) ( 1 − ϕ ) ) = exp ⁡ ( y ( ln ⁡ ϕ − ln ⁡ ( 1 − ϕ ) ) + ln ⁡ ( 1 − ϕ ) ) = exp ⁡ ( y ln ⁡ ( ϕ 1 − ϕ ) + ln ⁡ ( 1 − ϕ ) ) \begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp ({y}\ln (\phi)+({1-y})(1-\phi))\\ &=\exp \left(y (\ln \phi-\ln (1-\phi))+\ln (1-\phi)\right) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned} p(y)=ϕy(1ϕ)1y=exp(ln(ϕy(1ϕ)1y))=exp(yln(ϕ)+(1y)(1ϕ))=exp(y(lnϕln(1ϕ))+ln(1ϕ))=exp(yln(1ϕϕ)+ln(1ϕ))
对比指数族分布的一般形式,伯努利分布的指数族分布对应参数为:
b ( y ) = 1 η = ln ⁡ ( ϕ 1 − ϕ ) T ( y ) = y a ( η ) = − ln ⁡ ( 1 − ϕ ) = ln ⁡ ( 1 + e η ) \begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned} b(y)ηT(y)a(η)=1=ln(1ϕϕ)=y=ln(1ϕ)=ln(1+eη)

广义线性模型的三条假设:

  1. 在给定 x 的条件下,假设随机变量 y 服从某个指数族分布;
  2. 在给定 x 的条件下,我们的目标是得到一个模型 h(x) 能预测出 T(y) 的期望值;
  3. 假设该指数族分布中的自然参数 η \eta η x \boldsymbol{x} x 呈线性关系, 即 η = w T x \eta=\boldsymbol{w}^{T} \boldsymbol{x} η=wTx

对数几率回归(逻辑回归)是对二分类问题进行建模,并假设y的取值为0、1

这样我们自然可以假设y服从伯努利分布(0 1分布),而伯努利分布是指数型的。

此时如果我们想要构建一个线性模型,就要使用广义线性模型来建模。

当然要先验证给定的x是否满足上面三条假设。

1、我们已经验证了伯努利分布是指数族分布

2、已知 y 是服从伯努利分布,而伯努利分布属于指数族分布,所以满足广义线性模型的第一 条假设,接着根据广义线性模型的第二条假设我们可以推得模型 h(x) 的表达式为:
h ( x ) = E [ T ( y ∣ x ) ] h(\boldsymbol{x})=E[T(y \mid \boldsymbol{x})] h(x)=E[T(yx)]
由于伯努利分布的 T ( y ∣ x ) = y ∣ x T(y \mid \boldsymbol{x})=y \mid \boldsymbol{x} T(yx)=yx 所以:
h ( x ) = E [ y ∣ x ] h(\boldsymbol{x})=E[y \mid \boldsymbol{x}] h(x)=E[yx] 又因为 E [ y ∣ x ] = 1 × p ( y = 1 ∣ x ) + 0 × p ( y = 0 ∣ x ) = p ( y = 1 ∣ x ) = ϕ E[y \mid \boldsymbol{x}]=1 \times p(y=1 \mid \boldsymbol{x})+0 \times p(y=0 \mid \boldsymbol{x})=p(y=1 \mid \boldsymbol{x})=\phi \quad E[yx]=1×p(y=1x)+0×p(y=0x)=p(y=1x)=ϕ 所以:
h ( x ) = ϕ h(\boldsymbol{x})=\phi h(x)=ϕ
我们以及知道:
η = ln ⁡ ( ϕ 1 − ϕ ) e η = ϕ 1 − ϕ e − η = 1 − ϕ ϕ e − η = 1 ϕ − 1 1 + e − η = 1 ϕ 1 1 + e − η = ϕ \begin{array}{c} \eta=\ln \left(\frac{\phi}{1-\phi}\right) \\ e^{\eta}=\frac{\phi}{1-\phi} \\ e^{-\eta}=\frac{1-\phi}{\phi} \\ e^{-\eta}=\frac{1}{\phi}-1 \\ 1+e^{-\eta}=\frac{1}{\phi} \\ \frac{1}{1+e^{-\eta}}=\phi \end{array} η=ln(1ϕϕ)eη=1ϕϕeη=ϕ1ϕeη=ϕ111+eη=ϕ11+eη1=ϕ

ϕ = 1 1 + e − η 代入 h ( x ) \phi=\frac{1}{1+e^{-\eta}} 代入 h(\boldsymbol{x}) ϕ=1+eη1代入h(x) 的表达式可得:

h ( x ) = ϕ = 1 1 + e − η h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\eta}} h(x)=ϕ=1+eη1
这样就推出了sigmoid函数,下面就是用这个sigmoid函数进行建模了

3.3.2 对数几率回归

y y y 视为样本 x \boldsymbol{x} x 作为正例的可能性,则 1 − y 1-y 1y 是其反例的可能性,两者的比值 y 1 − y \frac{y}{1-y} 1yy 称为“几率”(odds),反应了 x x x 作为正例的相对可能性, ln ⁡ y 1 − y \ln \frac{y}{1-y} ln1yy,则称为对数几率 (log odds, 亦称logit)

根据广义模型的第三条假设,将Sigmoid函数带入到广义线性模型的表达式中, η = w T x , h ( x ) \eta=\boldsymbol{w}^{T} \boldsymbol{x} , h(\boldsymbol{x}) η=wTxh(x) 最终可化为:

y = 1 1 + e − ( w T x + b ) = p ( y = 1 ∣ x ) y = \frac{1}{1+e^{-(\boldsymbol{w}^{\text{T}}\boldsymbol{x}+b)}}=p(y=1 \mid \boldsymbol{x}) y=1+e(wTx+b)1=p(y=1x)
带入对数几率可得:

ln ⁡ y 1 − y = w T x + b \ln \frac{y}{1-y} = \boldsymbol{w}^{\text{T}}\boldsymbol{x} + b ln1yy=wTx+b

优点:

  1. 直接对分类可能性进行建模,无需假设数据分布,避免了假设不正确带来的问题
  2. 不仅预测出类别,同时得到近似概率预测
  3. 对数几率函数任意阶可导,便于求解

问题求解

如何确定 w \boldsymbol{w} w b b b

y y y 视为类后验概率估计 p ( y = 1 ∣ x ) p(y=1|\boldsymbol{x}) p(y=1∣x) (给定x的条件下,y=1的概率)

ln ⁡ y 1 − y = w T x + b \ln \frac{y}{1-y} = \boldsymbol{w}^{\text{T}}\boldsymbol{x} + b ln1yy=wTx+b 转化为 ln ⁡ p ( y = 1 ∣ x ) p ( y = 0 ∣ x ) = w T x + b \ln \frac{p(y = 1|\boldsymbol{x})}{p(y = 0|\boldsymbol{x})} = \boldsymbol{w}^{\text{T}}\boldsymbol{x} + b lnp(y=0∣x)p(y=1∣x)=wTx+b

  • p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b p(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{w^{\text{T}}\boldsymbol{x} + b}}}{1+e^{\boldsymbol{w^{\text{T}}\boldsymbol{x} + b}}} p(y=1∣x)=1+ewTx+bewTx+b

  • p ( y = 0 ∣ x ) = 1 1 + e w T x + b p(y=0|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w^{\text{T}}\boldsymbol{x} + b}}} p(y=0∣x)=1+ewTx+b1

通过“极大似然法”(maximum likelihood method,下面会讲)来估计 w \boldsymbol{w} w b b b

建模前还要补充几个知识

极大似然估计

比如箱子里有100个球共两种颜色,其中一种颜色有95个,现在摸出一个球是黑色,那么是黑球95个还是白球95个呢?

具体哪个多当然是不能肯定的,但我们可以知道,大概率是黑球多。

极大似然估计的目的是利用已知样本,反推最有可能导致出现这样结果的参数值是多少。

数学解释:

设总体的概率密度函数 (或分布律) 为 f ( y , w 1 , w 2 , … , w k ) , y 1 , y 2 , … , y m f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right), y_{1}, y_{2}, \ldots, y_{m} f(y,w1,w2,,wk),y1,y2,,ym 为 从该总体中抽出的样本。因为 y 1 , y 2 , … , y m y_{1}, y_{2}, \ldots, y_{m} y1,y2,,ym 相互独立且同分布,于是,它们的联合 概率密度函数 (或联合概率) 为
L ( y 1 , y 2 , … , y m ; w 1 , w 2 , … , w k ) = ∏ i = 1 m f ( y i , w 1 , w 2 , … , w k ) L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) L(y1,y2,,ym;w1,w2,,wk)=i=1mf(yi,w1,w2,,wk)
其中, w 1 , w 2 , … , w k w_{1}, w_{2}, \ldots, w_{k} w1,w2,,wk 被看作固定但是末知的参数。当我们已经观测到一组样本观测值 y 1 , y 2 , … , y m y_{1}, y_{2}, \ldots, y_{m} y1,y2,,ym 时,要去估计末知参数,一种直观的想法就是,哪一组参数值使得现在的样本观测值出现的概率最大, 哪一组参数可能就是真正的参数,我们就用它作为参数的估计值, 这就是所谓的极大似然估计。

对率回归模型最大化“对数似然”(loglikelihood),即令每个样本属于其真实标记的概率越大越好

极大似然估计的具体方法:
通常记 L ( y 1 , y 2 , … , y m ; w 1 , w 2 , … , w k ) = L ( w ) L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=L(\boldsymbol{w}) L(y1,y2,,ym;w1,w2,,wk)=L(w) ,并称其为似然函数。于是求 w \boldsymbol{w} w 的极大似然估计就归结为求 L ( w ) L(\boldsymbol{w}) L(w) 的最大值点。由于对数函数是单调递增函数,所以
ln ⁡ L ( w ) = ln ⁡ ( ∏ i = 1 m f ( y i , w 1 , w 2 , … , w k ) ) = ∑ i = 1 m ln ⁡ f ( y i , w 1 , w 2 , … , w k ) \ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) lnL(w)=ln(i=1mf(yi,w1,w2,,wk))=i=1mlnf(yi,w1,w2,,wk)

L ( w ) L(\boldsymbol{w}) L(w) 有相同的最大值点, 而在许多情况下,转将累乘变成累加,更方便计算。

于是可以求 L ( w ) L(\boldsymbol{w}) L(w) 的对数,这样我们就将求 L ( w ) L(\boldsymbol{w}) L(w) 的最大值点转化为了求 ln ⁡ L ( w ) \ln L(\boldsymbol{w}) lnL(w) 的最大值点,通常称 ln ⁡ L ( w ) \ln L(\boldsymbol{w}) lnL(w) 为对数似然函数。

对数几率回归的极大似然估计:
已知随机变量 y 取 1 和 0 的概率分别为
p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b p ( y = 0 ∣ x ) = 1 1 + e w T x + b \begin{array}{l} p(y=1 \mid x)=\frac{e^{w^{\mathrm{T}} x+b}}{1+e^{w^{\mathrm{T}} x+b}} \\ p(y=0 \mid x)=\frac{1}{1+e^{w^{\mathrm{T}} x+b}} \end{array} p(y=1x)=1+ewTx+bewTx+bp(y=0x)=1+ewTx+b1
β = ( w ; b ) , x ^ = ( x ; 1 ) \beta=(w ; b), \hat{x}=(x ; 1) β=(w;b),x^=(x;1) , 则 w T x + b w^{T} x+b wTx+b 可简写为 β T x ^ \beta^{T} \hat{x} βTx^ ,于是上式可化简为

KaTeX parse error: Unknown column alignment: p at position 16: \begin{array} p̲p(y=1 \mid x)=\…

于是,使用一个小技巧即可得到随机变量 y 的分布律表达式

p ( y ∣ x ; w , b ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) (3.26 ) p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=y \cdot p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \quad \tag {3.26 } p(yx;w,b)=yp1(x^;β)+(1y)p0(x^;β)(3.26 )
或者

p ( y ∣ x ; w , b ) = [ p 1 ( x ^ ; β ) ] y [ p 0 ( x ^ ; β ) ] 1 − y p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y} p(yx;w,b)=[p1(x^;β)]y[p0(x^;β)]1y

根据对数似然函数的定义可知

ln ⁡ L ( w ) = ∑ i = 1 m ln ⁡ f ( y i , w 1 , w 2 , … , w k ) \ln L(\boldsymbol{w})=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) lnL(w)=i=1mlnf(yi,w1,w2,,wk)
由于此时的 y为离散型, 所以将对数似然函数中的概率密度函数换成分布律即可

ℓ ( w , b ) = ln ⁡ L ( w , b ) = ∑ i = 1 m ln ⁡ p ( y i ∣ x i ; w , b ) (3.25) \ell(\boldsymbol{w}, b)=\ln L(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} \mid \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right) \quad \tag{3.25} (w,b)=lnL(w,b)=i=1mlnp(yixi;w,b)(3.25)

p ( y ∣ x ; w , b ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=y \cdot p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) p(yx;w,b)=yp1(x^;β)+(1y)p0(x^;β)
代入对公式(3.25)数似然函数可得:
ℓ ( β ) = ∑ i = 1 m ln ⁡ ( y i p 1 ( x ^ i ; β ) + ( 1 − y i ) p 0 ( x ^ i ; β ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)+\left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right) (β)=i=1mln(yip1(x^i;β)+(1yi)p0(x^i;β))

其中 p 1 ( x ^ i ; β ) = e β T x ^ i 1 + e β T x ^ i , p 0 ( x ^ i ; β ) = 1 1 + e β T x ^ i p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})=\cfrac{e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}}{1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}},p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})=\cfrac{1}{1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}} p1(x^i;β)=1+eβTx^ieβTx^i,p0(x^i;β)=1+eβTx^i1,代入上式可得
ℓ ( β ) = ∑ i = 1 m ln ⁡ ( y i e β T x ^ i + 1 − y i 1 + e β T x ^ i ) = ∑ i = 1 m ( ln ⁡ ( y i e β T x ^ i + 1 − y i ) − ln ⁡ ( 1 + e β T x ^ i ) ) \begin{aligned} \ell(\boldsymbol{\beta})&=\sum_{i=1}^{m}\ln\left(\cfrac{y_ie^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}+1-y_i}{1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}}\right) \\ &=\sum_{i=1}^{m}\left(\ln(y_ie^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}+1-y_i)-\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})\right) \end{aligned} (β)=i=1mln(1+eβTx^iyieβTx^i+1yi)=i=1m(ln(yieβTx^i+1yi)ln(1+eβTx^i))
由于 y i y_i yi=0或1,则
ℓ ( β ) = { ∑ i = 1 m ( − ln ⁡ ( 1 + e β T x ^ i ) ) , y i = 0 ∑ i = 1 m ( β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) , y i = 1 \ell(\boldsymbol{\beta}) = \begin{cases} \sum_{i=1}^{m}(-\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})), & y_i=0 \\ \sum_{i=1}^{m}(\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i-\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})), & y_i=1 \end{cases} (β)={i=1m(ln(1+eβTx^i)),i=1m(βTx^iln(1+eβTx^i)),yi=0yi=1

两式综合可得
ℓ ( β ) = ∑ i = 1 m ( y i β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(y_i\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i-\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})\right) (β)=i=1m(yiβTx^iln(1+eβTx^i))

由于此式仍为极大似然估计的似然函数,所以最大化似然函数等价于最小化似然函数的相反数,也即在似然函数前添加负号即可得公式(3.27)。

值得一提的是,若将公式(3.26)这个似然项改写为
p ( y i ∣ x i ; w , b ) = [ p 1 ( x ^ i ; β ) ] y i [ p 0 ( x ^ i ; β ) ] 1 − y i p(y_i|\boldsymbol x_i;\boldsymbol w,b)=[p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})]^{y_i}[p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})]^{1-y_i} p(yixi;w,b)=[p1(x^i;β)]yi[p0(x^i;β)]1yi
再将其代入公式(3.25)可得
ℓ ( β ) = ∑ i = 1 m ln ⁡ ( [ p 1 ( x ^ i ; β ) ] y i [ p 0 ( x ^ i ; β ) ] 1 − y i ) = ∑ i = 1 m [ y i ln ⁡ ( p 1 ( x ^ i ; β ) ) + ( 1 − y i ) ln ⁡ ( p 0 ( x ^ i ; β ) ) ] = ∑ i = 1 m { y i [ ln ⁡ ( p 1 ( x ^ i ; β ) ) − ln ⁡ ( p 0 ( x ^ i ; β ) ) ] + ln ⁡ ( p 0 ( x ^ i ; β ) ) } = ∑ i = 1 m [ y i ln ⁡ ( p 1 ( x ^ i ; β ) p 0 ( x ^ i ; β ) ) + ln ⁡ ( p 0 ( x ^ i ; β ) ) ] = ∑ i = 1 m [ y i ln ⁡ ( e β T x ^ i ) + ln ⁡ ( 1 1 + e β T x ^ i ) ] = ∑ i = 1 m ( y i β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) \begin{aligned} \ell(\boldsymbol{\beta})&=\sum_{i=1}^{m}\ln\left([p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})]^{y_i}[p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})]^{1-y_i}\right) \\ &=\sum_{i=1}^{m}\left[y_i\ln\left(p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})\right)+(1-y_i)\ln\left(p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})\right)\right] \\ &=\sum_{i=1}^{m} \left \{ y_i\left[\ln\left(p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})\right)-\ln\left(p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})\right)\right]+\ln\left(p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})\right)\right\} \\ &=\sum_{i=1}^{m}\left[y_i\ln\left(\cfrac{p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})}{p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})}\right)+\ln\left(p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})\right)\right] \\ &=\sum_{i=1}^{m}\left[y_i\ln\left(e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}\right)+\ln\left(\cfrac{1}{1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i}}\right)\right] \\ &=\sum_{i=1}^{m}\left(y_i\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i-\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})\right) \end{aligned} (β)=i=1mln([p1(x^i;β)]yi[p0(x^i;β)]1yi)=i=1m[yiln(p1(x^i;β))+(1yi)ln(p0(x^i;β))]=i=1m{yi[ln(p1(x^i;β))ln(p0(x^i;β))]+ln(p0(x^i;β))}=i=1m[yiln(p0(x^i;β)p1(x^i;β))+ln(p0(x^i;β))]=i=1m[yiln(eβTx^i)+ln(1+eβTx^i1)]=i=1m(yiβTx^iln(1+eβTx^i))

显然,此种方式更易推导出公式(3.27)

ℓ ( β ) = ∑ i = 1 m ( − y i β T x ^ i + ln ⁡ ( 1 + e β T x ^ i ) ) (3.27) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}(-y_i\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i+\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})) \tag{3.27} (β)=i=1m(yiβTx^i+ln(1+eβTx^i))(3.27)

用另一种思路来推:

知识补充:

信息论

西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第3张图片
西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第4张图片

西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第5张图片

西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第6张图片

西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第7张图片

西瓜书研读——第三章 线性模型:线性几率回归(逻辑回归)_第8张图片

上式是关于 β \beta β的高阶可导连续凸函数,可以用梯度下降法、牛顿法等求其最优解。

点击查看梯度下降法

  • 代码实践部分将发布于公众号 小白白学技术

  • 获取多资料 关注公众号 小白白学技术

你可能感兴趣的:(从小白视角研读西瓜书,逻辑回归,回归,机器学习)