西瓜书_chapter3_线性模型

3.1 基本形式

f ( x ) = ω 1 x 1 + ω 2 x 2 + . . . + ω d x d + b f(x)=\omega_1 x_1 + \omega_2 x_2+... +\omega_dx_d+b f(x)=ω1x1+ω2x2+...+ωdxd+b
其中, x i x_i xix在第i个属性上的取值,也可以写成
f ( x ) = ω T x + b f(x)=\omega^Tx+b f(x)=ωTx+b
公式中的 ω \omega ω比较直观地反应了每个属性的重要性,因而线性模型具有很好的可解释性(comprehensibility)。

3.2 线性回归

3.2.1 一元情况

线性回归的目的是学得
f ( x i ) = ω x i + b , 使 得 f ( x i ) = y i f(x_i)={\omega} x_i+b, 使得f(x_i)=y_i f(xi)=ωxi+b,使f(xi)=yi
在回归任务中,我们通常使用均方误差来度量模型的性能
( w ∗ , b ∗ ) = a r g m i n ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 (w^*,b^*)= \mathop{argmin}\limits_{(w, b)} \sum_{i=1}^{m}(f(x_i)-y_i)^2 (w,b)=(w,b)argmini=1m(f(xi)yi)2
由于上式的右侧对于 ω , b \omega,b ω,b是凸函数,因此可以采用求偏导取0的方式求得最值点。

3.2.2 多元情况

更一般地,如果我们把属性值扩充为多个,上述的问题就变为了多元线性回归问题。为了方便讨论,我们把 ω \omega ω b b b合在一起写为 w ^ = ( ω ; b ) \hat{w}=(\omega;b) w^=(ω;b)的形式,把数据集也用矩阵表示
X = [ x 1 T 1 x 2 T 1 . . . . . . x m T 1 ] X= \left[ \begin{matrix} x_1^T & 1\\ x_2^T & 1\\ ... & ...\\ x_m^T & 1\\ \end{matrix} \right] X=x1Tx2T...xmT11...1
将y也写为向量形式 ( y 1 ; y 2 ; . . . ; y m ) (y_1;y_2;...;y_m) (y1;y2;...;ym),则有
ω ^ ∗ = arg ⁡ max ⁡ ω ^ ( y − X ω ^ ) T ( y − X ω ^ ) \hat{\omega}^*=\mathop{\arg\max}\limits_{\hat{\omega}}(y-X\hat{\omega})^T(y-X\hat{\omega}) ω^=ω^argmax(yXω^)T(yXω^)
ω \omega ω求导再取0可以得到
ω ^ ∗ = ( X T X ) − 1 X T y \hat{\omega}^*=(X^TX)^{-1}X^Ty ω^=(XTX)1XTy
即得到最终的模型。

3.2.3 对数线性回归

如果输出的样例是在指数尺度上变化,那么我们就可以把模型写为
l n y = ω T x + b ln y=\omega^Tx+b lny=ωTx+b
更一般的,可以考虑单调可微的函数 g ( ⋅ ) g(·) g(),则有广义线性模型
y = g − 1 ( ω T x + b ) y=g^{-1}(\omega^Tx+b) y=g1(ωTx+b)

3.3 对数几率回归

设想我们在考虑一个二分类问题,线性回归的输出是一个实数,而我们想把它映射到{0, 1}上,这个函数需要单调可微。对数几率函数则满足这个条件
y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+ez1
代入线性回归的计算式
y = 1 1 + e − ( ω T x + b ) y=\frac{1}{1+e^{-(\omega^Tx+b)}} y=1+e(ωTx+b)1
经过整理可以得到
l n ( y 1 − y ) = ω T x + b ln(\frac{y}{1-y})=\omega^Tx+b ln(1yy)=ωTx+b
也即,此时的 ω T x + b \omega^Tx+b ωTx+b拟合的是“对数几率”,它反映了对数域下正例概率对反例概率的比例。
对率回归模型最大化“对数似然"
l o s s = ∑ i = 1 m l n p ( y i ∣ x i ; ω , b ) loss={\sum}_{i=1}^{m} \mathop{ln}p(y_i|x_i; \omega,b) loss=i=1mlnp(yixi;ω,b)
如果展开来写的话,考虑到每个样本的真实标签,有
p ( y i ∣ x i ; ω , b ) = y i p 1 ( x i ; ω , b ) + ( 1 − y i ) p 0 ( x i ; ω , b ) p(y_i|x_i; \omega,b)=y_ip_1(x_i;\omega,b)+(1-y_i)p_0(x_i;\omega,b) p(yixi;ω,b)=yip1(xi;ω,b)+(1yi)p0(xi;ω,b)
最终有
l o s s = ∑ i = 1 m ( − y i β T x ^ i + l n ( 1 + e ω T x + b ) ) loss ={\sum}_{i=1}^{m} (-y_i\beta^T\hat{x}_i+\mathop{ln}(1+e^{\omega^Tx+b})) loss=i=1m(yiβTx^i+ln(1+eωTx+b))
#感觉这个地方书上推的不太对,应该取个负号
而后这个东西对于参数 ω , b \omega,b ω,b都是凸的,因此可以用SGD等方式优化。

3.4 线性判别分析

给出一条直线,LDA希望同类别样本投影到这条直线上后距离尽可能近,而不同类样本尽可能远。令 X i , μ i , Σ i X_i, \mu_i,\Sigma_i Xi,μi,Σi分别表示第i类的样本集合、均值向量,协方差矩阵。
J = ∣ ∣ ω T μ 0 − ω T μ 1 ∣ ∣ 2 2 ω T Σ 0 ω + ω T Σ 1 ω J=\frac{||\omega^T\mu_0-\omega^T\mu_1||_2^2}{\omega^T\Sigma_0\omega+\omega^T\Sigma_1\omega} J=ωTΣ0ω+ωTΣ1ωωTμ0ωTμ122
目标如上,我们希望最大化 J J J。其分子表示类间距离的平凡想,分母是类内距离的平方和。
我们可以定义类内散度矩阵 S ω = Σ 0 + Σ 1 S_\omega=\Sigma_0+\Sigma_1 Sω=Σ0+Σ1和类间散度矩阵 S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T Sb=(μ0μ1)(μ0μ1)T,则有
J = ω T S b ω ω T S ω ω J=\frac{\omega^TS_b\omega}{\omega^TS_\omega\omega} J=ωTSωωωTSbω
注意到 ω \omega ω乘上任意非0实数都不会改变上式的计算结果,因此,我们不妨令 ω T S ω ω = 1 {\omega^TS_\omega\omega}=1 ωTSωω=1,从而我们只需对分子进行优化。于是,我们的问题就转化为了
m i n ω − ω T S b ω s . t . ω T S ω ω = 1 \mathop{min}\limits_{\omega} -\omega^TS_b\omega \\ \mathop{s.t.}\omega^TS_\omega\omega=1 ωminωTSbωs.t.ωTSωω=1
借助于拉格朗日乘子法,有
S b ω = λ S ω ω S_b\omega ={\lambda}S_\omega\omega Sbω=λSωω
又考虑到 S b ω S_b\omega Sbω的始终是 μ 0 − μ 1 \mu_0-\mu_1 μ0μ1,则
λ S ω ω = μ 0 − μ 1 {\lambda}S_\omega\omega=\mu_0-\mu_1 λSωω=μ0μ1
得到
ω = λ S ω − 1 ( μ 0 − μ 1 ) \omega={\lambda}S_\omega^{-1}(\mu_0-\mu_1) ω=λSω1(μ0μ1)
在此基础上,我们可以考虑LDA的多分类任务
我们再分别定义多分类任务中的类内和类间散度矩阵
S b = ∑ i = 1 m m i ( μ i − μ ) ( μ i − μ ) T S w = ∑ i = 1 m S ω i S_b=\sum_{i=1}^mm_i(\mu_i-\mu)(\mu_i-\mu)^T \\ S_w=\sum_{i=1}^mS_{\omega_i} Sb=i=1mmi(μiμ)(μiμ)TSw=i=1mSωi
其中
S ω i = ∑ x ∈ X i ( x − μ i ) ( x − μ i ) T S_{\omega_i}=\sum_{x\in{X_i}}(x-\mu_i)(x-\mu_i)^T Sωi=xXi(xμi)(xμi)T
于是,优化目标可以写为
m a x W t r ( W T S B W ) t r ( W T S ω W ) \mathop{max}\limits_{W}\frac{tr(W^TS_BW)}{tr(W^TS_{\omega}W)} Wmaxtr(WTSωW)tr(WTSBW)
对应的,有
S b W = λ S ω W S_bW={\lambda}S_{\omega}W SbW=λSωW
也就是说, W W W的闭式解是 S ω − 1 S b S_{\omega}^{-1}S_b Sω1Sb的特征向量所构成的矩阵。
如果把 W W W看成是一个投影矩阵,那么多分类LDA就相当于把样本投影到了N-1维空间。

3.5 多分类技术

3.6 样本不均衡问题

过采样与欠采样。

你可能感兴趣的:(西瓜书笔记)