正则化——模型复杂度调整

一、前言

        在线性回归中,我们提过,线性回归模型在多项式特征和交互特征的加持下会变得十分灵活且复杂,几乎可以拟合任意函数曲线,但所谓过刚易则,过于复杂的模型会将数据中的一些噪声也学习进去,导致过拟合问题,所以我们常常更希望模型能稍微简单一些,增加其鲁棒性和泛化能力。

二、正则化

2.1 概念阐述

        为了降低模型的复杂度,我们可以对模型的复杂程度施加以一个惩罚项,强制让模型的参数值尽可能的小从而使得模型更简单。以线性回归为例,传统的线性回归模型的损失函数为:(Y-X\beta)^2,由于是平方项,我们给其乘以一个\frac{1}{2},方便之后的求导(不影响最终结果)。现我们给以施加一个惩罚项\lambda R(\theta),也被称为正则化项,其中\theta是模型的参数,\lambda是惩罚力度,其越大会使得模型最终拟合的参数越小(模型更简单),加入正则化项后损失函数便可以写为:

L(\theta)=\frac{1}{2}(Y-X\beta)^2+\lambda R(\theta)

        其中正则化项可以使用L1范数也可以使用L2范数,L1范数即R(\theta)为模型参数的绝对值之和,L2范数即R(\theta)为模型参数的平方和,与L1和L2正则化相对应的线性回归模型分别为Lasso回归和岭回归。

2.2 公式推导

        L2正则化在模型求解时由于惩罚项是平方形式,计算相对简单一些,所以本文以岭回归为例说明正则化技术的使用。岭回归的损失函数为:

L(\theta) = \frac{1}{2}(Y-X\beta)^2+\frac{1}{2} \lambda \beta^T\beta

        同样,我们对其求梯度,得:

\frac{\partial L}{\partial \beta} = -X^T(Y-X\beta)+\lambda E\beta

        我们的目的是最小化损失函数,是个求极值问题,所以梯度应为0,化简,得:

(X^TX+\lambda E)\beta=X^TY

        进而我们可以得到,\widehat{\beta}=(X^TX+\lambda E)^{-1}X^TY

2.3 模型特点

        回顾多元线性回归的参数估计值(\widehat{\beta}=(X^TX)^{-1}X^TY),考虑到数据的量纲问题,假设X已经经过标准化处理,岭回归就是在散布矩阵X^TX的基础上加了一个\lambda E。之前提过,当变量之间存在多重共线性时,使用传统的最小二乘法可能难以拟合,甚至得到一些错误的结论,根本原因就是在多重共线性下,散布矩阵接近于奇异矩阵,导致最终拟合的参数的分布精度(方差)过大,可能会得到一些完全相反的结论。更有甚者,当模型的样本数比变量数还大时,X^TX便是一个奇异矩阵,没法求逆。而岭回归正好解决了这一个问题,从直观层面上来看,岭回归就是在散布矩阵X^TX的各对角线上加上一个岭参数\lambda,我们知道,当一个矩阵严格对角占优,即每一行主对角线元素的绝对值大于该行其他元素的绝对值之和,则矩阵一定可逆。

        实际上,岭回归拟合的参数是有偏估计,我们有:

正则化——模型复杂度调整_第1张图片

        从式(3)可以看出,当岭参数\lambda \neq 0时,\widehat{\beta}(\lambda)便是\beta的有偏估计,实际上,岭回归是以有偏来换取精度的提升。和传统的回归模型不同,岭回归可看成由\widehat{\beta}进行某种向原点的压缩,由于它对模型的复杂度施加了一定的惩罚(取决于\lambda的选择),会使得参数尽可能地接近于0。在对岭参数进行选择时,可以通过岭迹分析来选择,对于岭迹分析这一板块,感兴趣的可以去查相关资料。而在实际使用时,为了方便,一般会根据需要将岭参数设为0.001,0.1,1,10,100,1000等。

        需要说明的是,如果想要使用一个可解释性更强的模型,使用L1正则化更好,它具有截断性,约束模型只使用少数几个特征,常常用来进行特征选择。

三、算法实现

        我们使用波士顿房价数据集来说明算法,首先利用交互项来构造一个复杂的数据集,并将其标准化处理,得到一个有506个样本,105个特征的数据集:

正则化——模型复杂度调整_第2张图片

        使用普通最小二乘法来拟合直线:

正则化——模型复杂度调整_第3张图片

        普通最小二乘法拟合出来的直线过于复杂,模型极有可能将噪声点也学习了进去,泛化能力较差,下面考虑岭回归模型:

正则化——模型复杂度调整_第4张图片         与普通最小二乘法相比,岭回归就是在散布矩阵X^TX的主对角线上各加一个岭参数alpha,可以发现,最终拟合结果中,多数参数都变为了0,这是因为岭回归对模型的复杂度进行了惩罚,使得模型在拟合时会尽可能地让参数趋近于0。

        也可以直接使用sklearn中封装好的库,结果是一致的。

正则化——模型复杂度调整_第5张图片

        

你可能感兴趣的:(回归问题,监督学习,数据挖掘算法,机器学习,算法)