殊途同归的两种角度理解岭回归(内含有sklearn例子)

在学习统计学专业课《回归分析技术》时学过岭回归,学机器学习时也涉及到岭回归,但是两个角度的思想方法略有不同,但最后的结果却是殊途同归的,最近准备统计学考研的复试时,对比了两种思路,觉得很有意思,把一些思考过程分享出来。

一、统计学角度之下的岭回归

1.1 岭回归要解决什么问题?

岭回归的产生是为了弥补最小二乘估计的不足之处:

(1)最小二乘估计要求数据满足基本假定条件(变量之间不相关,残差项零均值、等方差、不序列相关),但实际中,能满足这个要求的数据是很少的,尤其是经济数据,变量之间有很强相关性
(2)当数据出现多重共线性,或样本量n小于变量数k时,参数估计精度会很低。

先来回顾一下最小二乘估计的一些原理:

记样本矩阵为X,用最小二乘估计求出来的回归系数估计为: β ^ = ( X T X ) − 1 X T y \hat\beta=(X^{T}X)^{-1}X^{T}y β^=(XTX)1XTy

当数据出现多重共线性,或样本量n小于变量数k时, X T X X^{T}X XTX不满秩, ∣ X T X ∣ = 0 |X^{T}X|=0 XTX=0 X T X X^{T}X XTX不能求逆。所以最小二乘估计 β ^ \hat\beta β^这时就求不出来。

为了解决最小二乘估计的这个硬伤,岭估计的解决思路是,作出一些改进,让矩阵 X T X X^{T}X XTX可以求逆。由于矩阵 X T X X^{T}X XTX是一个半正定矩阵,半正定矩阵加一个对角矩阵 k I n kI_{n} kIn之后, X T X + k I n X^{T}X+kI_{n} XTX+kIn就一定可以求逆。之后就和最小二乘求解最优解的思路一样了,由此得出的岭估计 β ^ ( k ) \hat\beta(k) β^(k)表达式如下: β ^ ( k ) = ( X T X + k I n ) − 1 X T y \hat\beta(k)=(X^{T}X+kI_{n})^{-1}X^{T}y β^(k)=(XTX+kIn)1XTy

k k k就是岭参数,当k=0时, β ^ ( 0 ) \hat\beta(0) β^(0)就是无偏估计。随着k增大, β ^ ( k ) \hat\beta(k) β^(k)逐渐变小,当k趋于无穷时, β ^ ( k ) \hat\beta(k) β^(k)逐渐趋于0。

1.2 岭回归估计的性质

  • β ^ ( k ) \hat\beta(k) β^(k)是回归参数 β \beta β的有偏估计

    最小二乘估计 β ^ \hat\beta β^是无偏估计,但当样本存在多重共线性,或者是样本量小于变量个数的时候,最小二乘估计 β ^ \hat\beta β^的方差很大,估计精度很低。但是岭回归相当于是牺牲了无偏性,虽然引入了偏差,但是却降低了估计的方差,提高了估计的精度。
    数理证明:

  • β ^ ( k ) = ( X T X + k I n ) − 1 X T y \hat\beta(k)=(X^{T}X+kI_{n})^{-1}X^{T}y β^(k)=(XTX+kIn)1XTy是最小二乘估计 β ^ \hat\beta β^的一个线性变换,也是 y y y的线性函数。
    y y y的线性函数很容易看出来,是最小二乘估计 β ^ \hat\beta β^的一个线性变换的证明如下:

    但是在实际中,k往往都由具体数据来确定,所以k依赖于y,这时候 β ^ \hat\beta β^就不是 β ^ \hat\beta β^的一个线性变换,也不是 y y y的线性函数。

  • ∣ ∣ β ^ ( k ) ∣ ∣ < ∣ ∣ β ^ ∣ ∣ ||\hat\beta(k)||<||\hat\beta|| β^(k)<β^
    岭估计的模长小于最小二乘估计的模长,这说明岭估计可以看成是 β ^ \hat\beta β^向某点的压缩。所以岭估计也叫压缩估计。

  • 存在k>0,使得 M S E ( β ^ ( k ) ) < M S E ( β ^ ) MSE(\hat\beta(k))MSEβ^(k)<MSEβ^
    虽然是有偏估计,但是从MSE的角度来看,岭估计优于最小二乘估计。

殊途同归的两种角度理解岭回归(内含有sklearn例子)_第1张图片

下面对最小二乘 β ^ \hat\beta β^和岭估计 β ^ ( k ) \hat\beta(k) β^(k)做一个粗略对比:

最小二乘估计 岭估计
自变量独立性要求 变量之间是独立的 变量之间可以是相关的
残差是否是随机 必须随机 残差可以有一定结构
无偏性 无偏估计 有偏估计

二、机器学习角度下的岭回归

2.1 岭回归解决过拟合问题

机器学习中,过拟合是个常见的问题。降低过拟合风险有这样几个途径:
(1)增加数据样本量
(2)特征选择、特征提取
(3)加正则项、加约束(对参数空间加一个约束)。

岭回归就是第三种思路:加正则项来降低过拟合风险。
加正则项之后的优化函数框架如下: J ( w ) = L ( w ) + λ P ( w ) J(w)=L(w)+\lambda P(w) J(w)=L(w)+λP(w)
其中L(w)是原来模型的损失函数,P(w)是正则项, λ \lambda λ是正则化系数,控制正则化的强度。正则项又有两种:一种是L1正则项,一种是L2正则项。
L1正则如下: ∑ i = 1 n ∣ θ i ∣ \sum_{i=1}^{n} |\theta_{i}| i=1nθi
L2正则如下: ∑ i = 1 n θ i 2 \sum_{i=1}^{n} \theta_{i}^{2} i=1nθi2
加上L1正则的模型会比用L2正则项的模型更加稀疏。后面会讲到这个点。岭回归就是在线性回归模型的损失函数后面加上L2正则项来进行参数寻优,若换成L1正则项,就变成了Lasso回归。在进行变量选择的时候,常会用到lasso回归,因为lasso回归模型的系数比岭回归模型的系数更加稀疏,它会使不重要的变量系数为0,而岭回归模型中,不重要的变量系数会很小,但不会为0。

2.2 加正则项的回归模型

首先看岭回归,它的目标函数为: J ( β ) = M S E ( β ) + 1 / 2 λ ∑ i = 1 n β i 2 J(\beta)=MSE(\beta)+1/2\lambda \sum_{i=1}^{n} \beta_{i}^{2} J(β)=MSE(β)+1/2λi=1nβi2

要找最优参数,就要让 J ( β ) J(\beta) J(β) β \beta β求导。
把上面的式子改写一下,改成这样:
J ( β ) = ∑ i = 1 n ( β T x i − y i ) 2 + 1 / 2 λ β T β J(\beta)=\sum_{i=1}^{n} (\beta^{T}x_{i}-y_{i})^{2}+1/2\lambda \beta^{T}\beta J(β)=i=1n(βTxiyi)2+1/2λβTβ
敲公式太累了,下面的推导直接上手写版:
殊途同归的两种角度理解岭回归(内含有sklearn例子)_第2张图片殊途同归的两种角度理解岭回归(内含有sklearn例子)_第3张图片用优化方法求出来的估计,形式上和我们在统计学模块里面见到的形式是一样的。

三、如何确定岭参数k?

1.统计学的方法:

  • 岭迹法
    殊途同归的两种角度理解岭回归(内含有sklearn例子)_第4张图片殊途同归的两种角度理解岭回归(内含有sklearn例子)_第5张图片

  • 方差扩大因子法
    殊途同归的两种角度理解岭回归(内含有sklearn例子)_第6张图片

  • 残差平方和确定k值
    殊途同归的两种角度理解岭回归(内含有sklearn例子)_第7张图片

2.机器学习方法——交叉验证确定超参数k

机器学习的思路中,选择正则化系数的技术是交叉验证,并且选择的标准非常明确——我们选择让交叉验证下的均方误差最小的正则化系数(或者说岭参数k)。
比如正则化系数的选择范围是:1,101,201,301,…1001。(从1开始以100为步长开始搜索),对每一个正则化系数,进行一次交叉验证建模,得到该正则化系数之下的模型评价准则,然后对所有模型的性能进行对比,选出评价指标最优的那一个模型对应的正则化系数。

我们用加利佛尼亚房屋价值数据集作为例子来应用一下:
首先调库,实例化,训练模型。RidgeCV可以直接通过交叉验证的方式来训练模型。正则化系数的选择范围是np.arange(1,1001,100):从1开始,以100为步长增加。

import numpy as np
import pandas as pd
from sklearn.linear_model import RidgeCV,LinearRegression
from sklearn.model_selection import train_test_split as TTS
from sklearn.datasets import fetch_california_housing as fch
import matplotlib.pyplot as plt
housevalue = fch()
X = pd.DataFrame(housevalue.data)
y = housevalue.target
X.columns = ["住户收入中位数","房屋使用年代中位数","平均房间数目" 
             ,"平均卧室数目","街区人口","平均入住率","街区的纬度","街区的经度"]
Ridge_=RidgeCV(alphas=np.arange(1,1001,100)
              ,scoring='neg_mean_squared_error'
              ,store_cv_values=True
              ).fit(X,y)

Ridge_.score(X,y)

结果为0.6060251767338429。这个score是岭回归基于10个不同的正则化系数所建立的模型中,表现最优(R^ 2值最大)的模型对应的R^2值。

Ridge_.cv_values_.shape

(20640, 10)
RidgeCV使用的是留一交叉验证(LOOCV),所以每个正则化系数对应的交叉验证结果有20640个。

MSE=-Ridge_.cv_values_.mean(axis=0)
MSE

array([6.10618033e-05, 9.07302179e-05, 1.11785961e-04, 1.27544011e-04,
1.39823410e-04, 1.49699514e-04, 1.57846229e-04, 1.64706208e-04,
1.70581703e-04, 1.75685916e-04])

sklearn里的那些评估指标(metrics)中没有MSE,只有’neg_mean_squared_error’(-MSE),所以在调出10个正则化系数对应的模型的MSE值时,要记得在前面加负号。

#查看被选择出来的最佳正则化系数
Ridge_.alpha_

101

最优的正则化系数是101,之后就可以用这个参数去建模。

四、岭回归、lasso、弹性网络

前面提到,解决过拟合问题的一个途径是:加正则项、加约束(对参数空间加一个约束),这时候的优化函数框架为:
J ( w ) = L ( w ) + λ P ( w ) J(w)=L(w)+\lambda P(w) J(w)=L(w)+λP(w)

L(w)是线性回归模型的损失函数,P(w)是正则项, λ \lambda λ则是正则项系数。当P(w)为L1正则项时,就是Lasso回归。当P(w)为L2正则项时,就是岭回归。很多博客都说,Lasso与岭回归非常相似,都是利用正则项来对原本的损失函数形成一个惩罚,以此来防止多重共线性。但这种说法不是很严谨,Lasso和岭回归处理多重共线性的思路不一样,岭回归是从根源上解决多重共线性的问题(即多重共线性存在时,矩阵 X T X X^TX XTX无法求逆),而lasso只是降低多重共线性等带来的影响,多重共线性的根源性问题它没有解决得了。我们可以看一下二者的优化过程:

4.1普通最小二乘:

记样本矩阵为X,用最小二乘估计求出来的回归系数估计为: β ^ = ( X T X ) − 1 X T y \hat\beta=(X^{T}X)^{-1}X^{T}y β^=(XTX)1XTy

当数据出现多重共线性,或样本量n小于变量数k时, X T X X^{T}X XTX不满秩, ∣ X T X ∣ = 0 |X^{T}X|=0 XTX=0 X T X X^{T}X XTX不能求逆。所以最小二乘估计 β ^ \hat\beta β^这时就求不出来。

4.2岭回归

为了解决最小二乘估计的这个硬伤,岭估计的解决思路是,作出一些改进,让矩阵 X T X X^{T}X XTX可以求逆。由于矩阵 X T X X^{T}X XTX是一个半正定矩阵,半正定矩阵加一个对角矩阵 k I n kI_{n} kIn之后, X T X + k I n X^{T}X+kI_{n} XTX+kIn就一定可以求逆。之后就和最小二乘求解最优解的思路一样了,由此得出的岭估计 β ^ ( k ) \hat\beta(k) β^(k)表达式如下: β ^ ( k ) = ( X T X + k I n ) − 1 X T y \hat\beta(k)=(X^{T}X+kI_{n})^{-1}X^{T}y β^(k)=(XTX+kIn)1XTy

岭回归是解决了多重共线性的根源性问题的:矩阵 X T X X^TX XTX无法求逆

4.3 lasso回归

lasso的损失函数:

J ( β ) = m i n β ∣ ∣ X β − y ∣ ∣ 2 2 + α ∣ ∣ β ∣ ∣ 1 J(\beta)=min_{\beta}||X\beta-y||_{2}^{2}+\alpha||\beta||_{1} J(β)=minβXβy22+αβ1

J ( β ) J( \beta ) J(β)关于 β \beta β求导并让导数值为0,假设 β \beta β的每一个分量都大于0,结果为:
X T X β − X T y + 1 / 2 α I = 0 X^TX\beta-X^Ty+1/2 \alpha I=0 XTXβXTy+1/2αI=0
化简结果为:
β ^ = ( X T X ) − 1 ( X T y − 1 / 2 α I ) \hat\beta=(X^TX)^{-1}(X^Ty - 1/2 \alpha I) β^=(XTX)1(XTy1/2αI)
通过增大 α \alpha α,我们可以为 β ^ \hat\beta β^的计算增加一个负项,从而限制参数估计中的大小,而防止多重共线性引起的参数被估计过大(当存在多重共线性问题时, ( X T X ) − 1 (X^TX)^{-1} (XTX)1会非常大)导致模型失准的问题。所以说Lasso不是从根本上解决多重共线性问题,在Lasso估计出来的 β \beta β中,还是有那个 ( X T X ) − 1 (X^TX)^{-1} (XTX)1不能求导的硬伤存在,Lasso是限制多重共线性带来的影响,而不是从根源上解决多重共线性的问题。

尽管Lasso是为了限制多重共线性被创造出来的,但它却经常被用来选择变量。岭回归也可以选择变量,但是能力肯定没有Lasso的强。这和它们的正则项有关,L1和L2正则化一个核心差异就是他们对系数的影响:两个正则化都会压缩系数的大小,不那么重要的特征的系数会更小,也会更容易被压缩。不过,L2正则化只会将系数压缩到尽量接近0,但L1正则化主导稀疏性,因此会将系数压缩到0。这个性质,让Lasso成为了线性模型中的特征选择工具首选。

4.4 弹性网络

弹性网络岭回归和Lasso回归的优势综合了起来,它将L1惩罚与L2惩罚同时引入到目标函数的最小化过程中,在获得稀疏系数的同时,维持了岭回归的正则属性。
弹性网络的损失函数:

J ( β ) = m i n β ∣ ∣ X β − y ∣ ∣ 2 2 + λ ( α ∣ ∣ β ∣ ∣ 1 + ( 1 − α ) ∣ ∣ β ∣ ∣ 2 ) J(\beta)=min_{\beta}||X\beta-y||_{2}^{2}+\lambda(\alpha||\beta||_{1}+(1-\alpha)||\beta||_{2}) J(β)=minβXβy22+λ(αβ1+(1α)β2)

弹性网络在很多特征互相联系的情况下是非常有用的。Lasso 很可能只随机考虑这些特征中的一个,而弹性网络更倾向于选择两个。弹性网络包含了一个混合参数α,它和lambda同时起作用。 α是一个0和1之间的数,lambda和前面一样,用来调节惩罚项的大小。 当α=0时,弹性网络等价于岭回归; 当α=1时,弹性网络等价于Lasso。

4.5 总结

再来比较一下线性回归、岭回归、Lasso回归的回归估计表达式,一目了然:
线性回归 β ^ = ( X T X ) − 1 X T y \hat\beta=(X^{T}X)^{-1}X^{T}y β^=(XTX)1XTy

岭回归 β ^ ( k ) = ( X T X + k I n ) − 1 X T y \hat\beta(k)=(X^{T}X+kI_{n})^{-1}X^{T}y β^(k)=(XTX+kIn)1XTy

Lasso回归 β ^ = ( X T X ) − 1 ( X T y − 1 / 2 α I ) \hat\beta=(X^TX)^{-1}(X^Ty - 1/2 \alpha I) β^=(XTX)1(XTy1/2αI)

从应用的角度来总结一下:

1.当数据中的多重共线性很明显,或者样本量小于特征数量的时候,即要解决多重共线性的问题,使用岭回归,或者弹性网络,最好不要用Lasso。
2.筛选变量时,Lasso是首选。

你可能感兴趣的:(机器学习算法,回归,机器学习)