【西瓜书笔记】2. 对数几率回归

2.1 对数几率回归模型

指数族分布是一类分布的总称,该类分布的分布律(概率密度函数)的一般形式如下:
p ( y ; η ) = b ( y ) exp ⁡ ( η T T ( y ) − a ( η ) ) = b ( y ) exp ⁡ [ η ( θ ) ⋅ T ( y ) − A ( θ ) ] = b ( y ) exp ⁡ ( η ( θ ) ⋅ T ( y ) − A ( θ ) ) = b ( y ) exp ⁡ ( η ( θ ) ⋅ T ( y ) − A ( θ ) ) p(y;\eta) = b(y)\exp(\eta^{T}T(y)-a(\eta)) \\ = b(y) \exp [\eta(\theta) \cdot T(y)-A(\theta)]\\ = b(y) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(y)-A(\boldsymbol{\theta}))\\ = b(\mathbf{y}) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(\mathbf{y})-A(\boldsymbol{\theta})) p(y;η)=b(y)exp(ηTT(y)a(η))=b(y)exp[η(θ)T(y)A(θ)]=b(y)exp(η(θ)T(y)A(θ))=b(y)exp(η(θ)T(y)A(θ))
其中, η \eta η称为该分布的自然参数; T ( y ) T(y) T(y)为充分统计量,视具体的分布情况而定, 通常是等于随机变量y本身; a ( y ) a(y) a(y)是配分函数; b ( y ) b(y) b(y)是关于随机变量 y y y的函数。常见的伯努利分布和正态分布均属于指数族分布。【 η \eta η的T不是充分统计量的T,是向量转置的意思上面不同行对应 θ \theta θ y y y分别是向量和标量的情况。

首先证明伯努利分布属于指数族分布。

伯努利分布
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y p(y) = \phi^{y}(1-\phi)^{1-y} p(y)=ϕy(1ϕ)1y
其中 y ∈ { 0 , 1 } y \in\{0,1\} y{0,1}, p ( y = 1 ) = ϕ p(y=1)=\phi p(y=1)=ϕ.对上式做恒等变形:
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y = exp ⁡ ( ln ⁡ ( ϕ y ( 1 − ϕ ) 1 − y ) ) = exp ⁡ ( ln ⁡ ϕ y + ln ⁡ ( 1 − ϕ ) 1 − y ) = exp ⁡ ( y ln ⁡ ϕ + ( 1 − y ) ln ⁡ ( 1 − ϕ ) ) = exp ⁡ ( y ln ⁡ ϕ + ln ⁡ ( 1 − ϕ ) − y ln ⁡ ( 1 − ϕ ) ) = exp ⁡ ( y ( ln ⁡ ϕ − ln ⁡ ( 1 − ϕ ) ) + ln ⁡ ( 1 − ϕ ) ) = exp ⁡ ( y ln ⁡ ( ϕ 1 − ϕ ) + ln ⁡ ( 1 − ϕ ) ) \begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln (1-\phi)^{1-y}\right)\\ &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned} p(y)=ϕy(1ϕ)1y=exp(ln(ϕy(1ϕ)1y))=exp(lnϕy+ln(1ϕ)1y)=exp(ylnϕ+(1y)ln(1ϕ))=exp(ylnϕ+ln(1ϕ)yln(1ϕ))=exp(y(lnϕln(1ϕ))+ln(1ϕ))=exp(yln(1ϕϕ)+ln(1ϕ))
对比指数族分布的一般形式,我们有
b ( y ) = 1 η = ln ⁡ ( ϕ 1 − ϕ ) T ( y ) = y a ( η ) = − ln ⁡ ( 1 − ϕ ) = ln ⁡ ( 1 + e η ) \begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned} b(y)ηT(y)a(η)=1=ln(1ϕϕ)=y=ln(1ϕ)=ln(1+eη)
第二步,我么先给广义线性模型提出三条假设:

  1. 在给定 x x x的条件下,假设随机变量 y y y服从某个指数族分布
  2. 在给定 x x x的条件下,我们的目标是得到一个模型 h ( x ) h(x) h(x)能预测出 T ( y ) T(y) T(y)的期望值。
  3. 假设该指数族分布的自然参数 η \eta η x x x呈线性关系,即 η = w T x \eta=w^{T}x η=wTx

因为对数几率回归是在对一个二分类问题进行建模,并且假设被建模的随机变量取值为0或者1,我们可以假设 y y y服从伯努利分布。因此如果要构建一个线性模型来预测在给定 x x x的条件下 y y y的取值的话,可以考虑使用广义线性模型来进行建模。

第三步,构建对数几率回归。已知 y y y服从伯努利分布,而伯努利分布属于指数族分布,所以满足广义线性模型的第一条假设,接着根据第二条假设我们可以推得模型 h ( x ) h(x) h(x)的表达式为
h ( x ) = E [ T ( y ∣ x ) ] h(\boldsymbol{x})=E[T(y \mid \boldsymbol{x})] h(x)=E[T(yx)]
由于伯努利分布的 T ( y ∣ x ) = y ∣ x T(y \mid \boldsymbol{x})=y \mid \boldsymbol{x} T(yx)=yx,所以:
h ( x ) = E [ y ∣ x ] = 1 × p ( y = 1 ∣ x ) + 0 × p ( y = 0 ∣ x ) = p ( y = 1 ∣ x ) = ϕ h(\boldsymbol{x})=E[y \mid \boldsymbol{x}] = 1 \times p(y=1 \mid x)+0 \times p(y=0 \mid x)=p(y=1 \mid x)=\phi h(x)=E[yx]=1×p(y=1x)+0×p(y=0x)=p(y=1x)=ϕ
所以:
h ( x ) = ϕ h(\boldsymbol{x})=\phi h(x)=ϕ
在第一步中国我们有:
η = ln ⁡ ( ϕ 1 − ϕ ) e η = ϕ 1 − ϕ e − η = 1 − ϕ ϕ e − η = 1 ϕ − 1 1 + e − η = 1 ϕ 1 1 + e η = ϕ \begin{array}{l} \eta=\ln \left(\dfrac{\phi}{1-\phi}\right) \\ e^{\eta}=\dfrac{\phi}{1-\phi} \\ e^{-\eta}=\dfrac{1-\phi}{\phi} \\ e^{-\eta}=\dfrac{1}{\phi}-1 \\ 1+e^{-\eta}=\dfrac{1}{\phi} \\ \dfrac{1}{1+e^{\eta}} = \phi \end{array} η=ln(1ϕϕ)eη=1ϕϕeη=ϕ1ϕeη=ϕ111+eη=ϕ11+eη1=ϕ
所以我们有:
h ( x ) = ϕ = 1 1 + e − η h(\boldsymbol{x})=\phi=\dfrac{1}{1+e^{-\eta}} h(x)=ϕ=1+eη1
根据第三条假设 η = w T x \eta=\boldsymbol{w}^{T} \boldsymbol{x} η=wTx,最终有
h ( x ) = ϕ = 1 1 + e − w T x = p ( y = 1 ∣ x ) h(\boldsymbol{x})=\phi=\dfrac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}=p(y=1 \mid \boldsymbol{x}) h(x)=ϕ=1+ewTx1=p(y=1x)
此即为对数几率回归模型。

2.2 极大似然估计

2.2.1 定义

设总体的概率密度函数(或者分布律)为 f ( y , w 1 , w 2 , … , w k ) f\left(y, w_{1}, w_{2}, \ldots, w_{k}\right) f(y,w1,w2,,wk), y 1 , y 2 , … , y m y_{1}, y_{2}, \ldots, y_{m} y1,y2,,ym是从该总体中抽出的样本。因为 y 1 , y 2 , … , y m y_{1}, y_{2}, \ldots, y_{m} y1,y2,,ym相互独立且同分布, 于是他们的联合概率密度函数(或联合概率)为
L ( y 1 , y 2 , … , y m ; w 1 , w 2 , … , w k ) = ∏ i = 1 m f ( y i , w 1 , w 2 , … , w k ) L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) L(y1,y2,,ym;w1,w2,,wk)=i=1mf(yi,w1,w2,,wk)
其中, w 1 , w 2 , … , w k w_{1}, w_{2}, \ldots, w_{k} w1,w2,,wk被看作固定但未知的参数。当我们已经观测到一组样本观测值 y 1 , y 2 , … , y m y_{1}, y_{2}, \ldots, y_{m} y1,y2,,ym时,要去估计未知参数,一种直观的想法就是,那一组参数值使得现在的样本观测值出现的概率最大,哪一组参数可能就是真正的参数,我们就用它作为参数的估计值,这就是极大似然估计。【隶属于概率主义学派

2.2.2 求解方法

通常记 L ( y 1 , y 2 , … , y m ; w 1 , w 2 , … , w k ) = L ( w ) L\left(y_{1}, y_{2}, \ldots, y_{m} ; w_{1}, w_{2}, \ldots, w_{k}\right)=L(\boldsymbol{w}) L(y1,y2,,ym;w1,w2,,wk)=L(w),并称其为似然函数。于是求 w \boldsymbol{w} w的极大似然估计就转化为求 L ( w ) L(\boldsymbol{w}) L(w)的最大值点。由于对数函数是单调递增函数,所以
ln ⁡ L ( w ) = ln ⁡ ( ∏ i = 1 m f ( y i , w 1 , w 2 , … , w k ) ) = ∑ i = 1 m ln ⁡ f ( y i , w 1 , w 2 , … , w k ) \ln L(\boldsymbol{w})=\ln \left(\prod_{i=1}^{m} f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right)\right)=\sum_{i=1}^{m} \ln f\left(y_{i}, w_{1}, w_{2}, \ldots, w_{k}\right) lnL(w)=ln(i=1mf(yi,w1,w2,,wk))=i=1mlnf(yi,w1,w2,,wk)
L ( w ) L(\boldsymbol{w}) L(w)有相同的最大值点。如果求对数的最大值点比较简单,我们就将求 L L L的最大值点转化为求 ln ⁡ L \ln L lnL的最大值点,通常称 ln ⁡ L ( w ) \ln L(\boldsymbol{w}) lnL(w) 为对数似然函数。

可以开始求对数几率回归的极大似然估计

已知:
p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b p ( y = 0 ∣ x ) = 1 1 + e w T x + b \begin{array}{l} p(y=1 \mid \boldsymbol{x})=\dfrac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \\ p(y=0 \mid \boldsymbol{x})=\dfrac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}} \end{array} p(y=1x)=1+ewTx+bewTx+bp(y=0x)=1+ewTx+b1
p ( y = 0 ∣ x ) = 1 − p ( y = 1 ∣ x ) p(y=0 \mid \boldsymbol{x}) = 1- p(y=1 \mid \boldsymbol{x}) p(y=0x)=1p(y=1x)

β = ( w ; b ) , x ^ = ( x ; 1 ) \boldsymbol{\beta}=(\boldsymbol{w} ; b), \hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1) β=(w;b),x^=(x;1), 则上式可以化简为
p ( y = 1 ∣ x ) = e β T x ^ 1 + e β T x ^ = p 1 ( x ^ ; β ) p ( y = 0 ∣ x ) = 1 1 + e β T x ^ = p 0 ( x ^ ; β ) \begin{array}{l} p(y=1 \mid \boldsymbol{x})=\dfrac{e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \\ p(y=0 \mid \boldsymbol{x})=\dfrac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}}}=p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta}) \end{array} p(y=1x)=1+eβTx^eβTx^=p1(x^;β)p(y=0x)=1+eβTx^1=p0(x^;β)

使用个小技巧就可以得到随机变量y的分布律表达式【0-1分布律的表达式
p ( y ∣ x ; w , b ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) p ( y ∣ x ; w , b ) = [ p 1 ( x ^ ; β ) ] y [ p 0 ( x ^ ; β ) ] 1 − y p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=y \cdot p_{1}(\hat{\boldsymbol{x} } ; \boldsymbol{\beta})+(1-y) \cdot p_{0}(\hat{\boldsymbol{x} } ; \boldsymbol{\beta})\\ p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y} p(yx;w,b)=yp1(x^;β)+(1y)p0(x^;β)p(yx;w,b)=[p1(x^;β)]y[p0(x^;β)]1y
由于此时的y是离散型,所以对数似然函数中的概率密度函数直接可以换成分布律
ℓ ( w , b ) : = ln ⁡ L ( w , b ) = ∑ i = 1 m ln ⁡ p ( y i ∣ x i ; w , b ) ⇒ ℓ ( β ) = ∑ i = 1 m ln ⁡ ( y i p 1 ( x ^ i ; β ) + ( 1 − y i ) p 0 ( x ^ i ; β ) ) \ell(\boldsymbol{w}, b):=\ln L(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} \mid \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)\\ \Rightarrow \ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)+\left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right) (w,b):=lnL(w,b)=i=1mlnp(yixi;w,b)(β)=i=1mln(yip1(x^i;β)+(1yi)p0(x^i;β))
p 1 , p 0 p_1, p_0 p1,p0代入
ℓ ( β ) = ∑ i = 1 m ln ⁡ ( y i e β T x ^ i 1 + e β T x ^ i + 1 − y i 1 + e β T x ^ i ) = ∑ i = 1 m ln ⁡ ( y i e β T x ^ i + 1 − y i 1 + e β T x ^ i ) = ∑ i = 1 m ( ln ⁡ ( y i e β T x ^ i + 1 − y i ) − ln ⁡ ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m} \ln \left(\dfrac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}+\frac{1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\\ =\sum_{i=1}^{m} \ln \left(\dfrac{y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\\ =\sum_{i=1}^{m}\left(\ln \left(y_{i} e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}+1-y_{i}\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) (β)=i=1mln(1+eβTx^iyieβTx^i+1+eβTx^i1yi)=i=1mln(1+eβTx^iyieβTx^i+1yi)=i=1m(ln(yieβTx^i+1yi)ln(1+eβTx^i))
y i = 0 y_i=0 yi=0时,
ℓ ( β ) = ∑ i = 1 m ( ln ⁡ ( 0 ⋅ e β T x ^ i + 1 − 0 ) − ln ⁡ ( 1 + e β T x i ) ) = ∑ i = 1 m ( ln ⁡ 1 − ln ⁡ ( 1 + e β T x i ) ) = ∑ i = 1 m ( − ln ⁡ ( 1 + ϵ β T x i ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(0 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-0\right)-\ln \left(1+e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)\\ =\sum_{i=1}^{m}\left(\ln 1-\ln \left(1+e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(-\ln \left(1+\epsilon^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}\right)\right) (β)=i=1m(ln(0eβTx^i+10)ln(1+eβTxi))=i=1m(ln1ln(1+eβTxi))=i=1m(ln(1+ϵβTxi))
y i = 1 y_i=1 yi=1时,
ℓ ( β ) = ∑ i = 1 m ( ln ⁡ ( 1 ⋅ e β T x ^ i + 1 − 1 ) − ln ⁡ ( 1 + ϵ β T x ^ i ) ) = ∑ i = 1 m ( ln ⁡ e β T x i − ln ⁡ ( 1 + e β T x ˙ i ) ) = ∑ i = 1 m ( β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(\ln \left(1 \cdot e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}+1-1\right)-\ln \left(1+\epsilon^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right)\\ =\sum_{i=1}^{m}\left(\ln e^{\boldsymbol{\beta}^{T} \boldsymbol{x}_{i}}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \dot{x}_{i}}\right)\right)=\sum_{i=1}^{m}\left(\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{x}_{i}}\right)\right) (β)=i=1m(ln(1eβTx^i+11)ln(1+ϵβTx^i))=i=1m(lneβTxiln(1+eβTx˙i))=i=1m(βTx^iln(1+eβTx^i))
因此可以吧对数似然函数简化为:
ℓ ( β ) = ∑ i = 1 m ( y i β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) (β)=i=1m(yiβTx^iln(1+eβTx^i))
最大化这个表达式等价于最小化其负值:
ℓ ( β ) = ∑ i = 1 m ( − y i β T x ^ i + ln ⁡ ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}\left(-y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}+\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) (β)=i=1m(yiβTx^i+ln(1+eβTx^i))
这就是西瓜书page59的式(3.27)

如果用另外一个分布律表达式 p ( y ∣ x ; w , b ) = [ p 1 ( x ^ ; β ) ] y [ p 0 ( x ^ ; β ) ] 1 − y p(y \mid \boldsymbol{x} ; \boldsymbol{w}, b)=\left[p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{y}\left[p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})\right]^{1-y} p(yx;w,b)=[p1(x^;β)]y[p0(x^;β)]1y,对数似然函数为
ℓ ( β ) = ∑ i = 1 m ln ⁡ ( [ p 1 ( x ^ i ; β ) ] y i [ p 0 ( x ^ i ; β ) ] 1 − y i ) = ∑ i = 1 m [ ln ⁡ ( [ p 1 ( x ^ i ; β ) ] y i ) + ln ⁡ ( [ p 0 ( x ^ i ; β ) ] 1 − y i ) ] = ∑ i = 1 m [ y i ln ⁡ ( p 1 ( x ^ i ; β ) ) + ( 1 − y i ) ln ⁡ ( p 0 ( x ^ i ; β ) ) ] = ∑ i = 1 m { y i [ ln ⁡ ( p 1 ( x ^ i ; β ) ) − ln ⁡ ( p 0 ( x ^ i ; β ) ) ] + ln ⁡ ( p 0 ( x ^ i ; β ) ) } = ∑ i = 1 m [ y i ln ⁡ ( p 1 ( x ^ i ; β ) p 0 ( x ^ i ; β ) ) + ln ⁡ ( p 0 ( x ^ i ; β ) ) ] = ∑ i = 1 m [ y i ln ⁡ ( e β T x ^ i ) + ln ⁡ ( 1 1 + e β T x ^ i ) ] = ∑ i = 1 m ( y i β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) \begin{aligned} \ell(\boldsymbol{\beta}) &=\sum_{i=1}^{m} \ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right) \\ &=\sum_{i=1}^{m}\left[\ln \left(\left[p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{y_{i}}\right)+\ln \left(\left[p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right]^{1-y_{i}}\right)\right] \\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)+\left(1-y_{i}\right) \ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right] \\ &=\sum_{i=1}^{m}\left\{y_{i}\left[\ln \left(p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)-\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right]+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right\}\\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(\frac{p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}{p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)}\right)+\ln \left(p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)\right]\\ &=\sum_{i=1}^{m}\left[y_{i} \ln \left(e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)+\ln \left(\frac{1}{1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}}\right)\right]\\ &=\sum_{i=1}^{m}\left(y_{i} \boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}-\ln \left(1+e^{\boldsymbol{\beta}^{T} \hat{\boldsymbol{x}}_{i}}\right)\right) \end{aligned} (β)=i=1mln([p1(x^i;β)]yi[p0(x^i;β)]1yi)=i=1m[ln([p1(x^i;β)]yi)+ln([p0(x^i;β)]1yi)]=i=1m[yiln(p1(x^i;β))+(1yi)ln(p0(x^i;β))]=i=1m{yi[ln(p1(x^i;β))ln(p0(x^i;β))]+ln(p0(x^i;β))}=i=1m[yiln(p0(x^i;β)p1(x^i;β))+ln(p0(x^i;β))]=i=1m[yiln(eβTx^i)+ln(1+eβTx^i1)]=i=1m(yiβTx^iln(1+eβTx^i))

同样可以得到相同的结果。这就是对数几率回归的对数似然函数

2.2.3 数值求解极大似然函数

由于 ℓ ( β ) \ell(\boldsymbol{\beta}) (β)是关于 β \boldsymbol{\beta} β的高阶可导连续凸函数,通过经典数值优化算法入梯度下降和牛顿法可以求解。比如牛顿法
x n + 1 = x n − f ′ ( x n ) f ′ ′ ( x n ) ⇒ β t + 1 = β t − ( ∂ 2 ℓ ( β ) ∂ β ∂ β T ) − 1 ∂ ℓ ( β ) ∂ β x_{n+1}=x_{n}-\frac{f^{\prime}\left(x_{n}\right)}{f^{\prime\prime}\left(x_{n}\right)}\\ \Rightarrow \boldsymbol{\beta}^{t+1}=\boldsymbol{\beta}^{t}-\left(\frac{\partial^{2} \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^{\mathrm{T}}}\right)^{-1} \frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} xn+1=xnf(xn)f(xn)βt+1=βt(ββT2(β))1β(β)

你可能感兴趣的:(《机器学习》西瓜书第15期)