正则化(Regularization)
参考:
https://blog.csdn.net/jinping_shi/article/details/52433975
https://blog.csdn.net/u012162613/article/details/44261657
1. 正则化的概念
规则化 vs 正则化
- 规则化,顾名思义,给你的模型加入某些规则,来达到某些目的(在机器学习或深度学习中是为了防止过拟合)
- 正则化,与规则化是同一个意思。
正则项一般加在损失函数后面,英文是 l1 l 1 -norm和 l2 l 2 -norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。
2. L1范数和L2范数
- L1范数: ||ω||1 | | ω | | 1 ,指权值向量 ω ω 中各个元素的绝对值之和
- L2范数: ||ω||2 | | ω | | 2 ,指权值向量 ω ω 中各个元素的平方和然后再求平方根
3. 线性回归的正则化
- 线性回归+L1正则项:Lasso回归
- 线性回归+L2正则项:Ridge回归(岭回归)
4. L1和L2正则化的作用
- L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。
- L2正则化可以防止模型过拟合。(一定程度上,L1也可以防止过拟合)。
L1正则化-特征选择
1. 稀疏模型与特征选择
L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。那么,为什么要生成一个稀疏矩阵?
稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个(bigram)。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(因为它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响),此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。
举个栗子,患病回归模型 y=ω1x1+ω2x2+...+ω1000x1000+b y = ω 1 x 1 + ω 2 x 2 + . . . + ω 1000 x 1000 + b ,通过学习,最后学习到的 ω ω 就只有很少几个非零元素,例如只有5个非零的 ωi ω i 。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。
2. L1正则化的图形理解
参考机器学习中正则化项L1和L2的直观理解
假设有如下带L1正则化的损失函数:
J=J0+α∑w|w|(1) (1) J = J 0 + α ∑ w | w |
其中
J0 J 0 是原始的损失函数,加号后面的一项是L1正则化项,
α α 是
正则化系数。注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数
J0 J 0 后添加L1正则化项时,相当于对
J0 J 0 做了一个约束。
令
L=α∑ω|ω| L = α ∑ ω | ω |
则
J=J0+L J = J 0 + L
此时我们的任务变成在L约束下求出
J0 J 0 取最小值的解。
考虑二维的情况,即只有两个权值 w1 w 1 和 w2 w 2 ,此时 L=|w1|+|w2| L = | w 1 | + | w 2 | ,对于梯度下降法,求解 J0 J 0 的过程可以画出等值线,同时L1正则化的函数L
也可以在 w1w2 w 1 w 2 的二维平面上画出来。如下图:
图1 L1正则化
图中等值线是 J0 J 0 的等值线,黑色方形是L函数的图形(也就是约束条件)。在图中,当 J0 J 0 等值线与L图形首次相交的地方就是最优解。上图中 J0 J 0 与L在L的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是 (w1,w2)=(0,w) ( w 1 , w 2 ) = ( 0 , w ) 。可以直观想象,因为L函数有很多『突出的角』(二维情况下四个,多维情况下更多), J0 J 0 与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。
而正则化前面的系数 α α ,可以控制L图形的大小。 α α 越小,L的图形越大(上图中的黑色方框); α α 越大,L的图形就越小,可以小到黑色方框只超出原点范围一点点,这时最优点的值 (w1,w2)=(0,w) ( w 1 , w 2 ) = ( 0 , w ) 中的 ω ω 可以取到很小的值。也就是说,L1正则化在一定程度上可以防止过拟合(下文有说明 ω ω 值小就可以防止过拟合的原因)。
3. L1正则化的公式推导
参考正则化方法:L1和L2 regularization、数据集扩增、dropout
将
J=J0+α∑ω|ω| J = J 0 + α ∑ ω | ω |
写成:
C=C0+λn∑ω|ω| C = C 0 + λ n ∑ ω | ω |
(即:J用C表示,
α α 用
λn λ n 表示)
计算导数:
∂C∂ω=∂C0∂ω+λnsgn(ω) ∂ C ∂ ω = ∂ C 0 ∂ ω + λ n s g n ( ω )
上式中
sgn(ω) s g n ( ω ) 表示
ω ω 的符号。那么权重
ω ω 的更新规则为:
ω→ω′=ω−η∂C∂ω=ω−η(∂C0∂ω+λnsgn(ω))=ω−η∂C0∂ω−ηλnsgn(ω) ω → ω ′ = ω − η ∂ C ∂ ω = ω − η ( ∂ C 0 ∂ ω + λ n s g n ( ω ) ) = ω − η ∂ C 0 ∂ ω − η λ n s g n ( ω )
比原始的更新规则多出了
ηλnsgn(ω) η λ n s g n ( ω ) 这一项。当
ω ω 为正时,更新后的
ω ω 变小。当
ω ω 为负时,更新后的
ω ω 变大——因此它的效果就是让
ω ω 往0靠,使网络中的权重尽可能为0,也就相当于减小了网络复杂度,防止过拟合。
另外,上面没有提到一个问题,当 ω ω 为0时怎么办?当 ω ω 等于0时, |ω| | ω | 是不可导的,所以我们只能按照原始的未经正则化的方法去更新 ω ω ,这就相当于去掉 ηλnsgn(ω) η λ n s g n ( ω ) 这一项,所以我们可以规定sgn(0)=0,这样就把 ω ω =0的情况也统一进来了。(在编程的时候,令sgn(0)=0,sgn( ω ω >0)=1,sgn( ω ω <0)=-1)
L2正则化-防止过拟合
1. L2正则化的图形理解
假设有如下带L2正则化的损失函数:
J=J0+α∑ww2(2) (2) J = J 0 + α ∑ w w 2
同样可以画出他们在二维平面上的图形,如下:
图2 L2正则化
二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此 J0 J 0 与L相交时使得 w1 w 1 或 w2 w 2 等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。
2. 抗扰动能力强——参数很小
损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。通常将一般形式的损失函数(参考机器学习总结(一):常见的损失函数)表示为如下:
θ∗=argmin1N∑i=1NL(yi,f(xi;θi))+λΦ(θ)(1) (1) θ ∗ = a r g m i n 1 N ∑ i = 1 N L ( y i , f ( x i ; θ i ) ) + λ Φ ( θ )
我们既要让训练误差(上式第一项)最小,又要让模型尽可能简单(上式第二项)。于是我们有个朴素的想法:那就让权重
ω ω (在上式中为
θ θ )多几个为0(或者接近于0,说明该节点影响很小)就好了,相当于在神经网络中删掉一些节点,这样模型就变得简单了。
拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为
参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『
抗扰动能力强』。
3. L2正则化可以获得值很小的参数
以线性回归中的梯度下降法为例。假设要求的参数为 θ θ , hθ(x) h θ ( x ) 是我们的假设函数,那么线性回归的代价函数如下:
J(θ)=12m∑i=1m(hθ(x(i))−y(i))2(3) (3) J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2
那么在梯度下降法中,最终用于迭代计算参数
θ θ 的迭代式为:
θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)j(4) (4) θ j := θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i )
(上式在 logistic回归损失函数与梯度下降中有介绍)
其中
α α 是learning rate. 上式是没有添加L2正则化项的迭代公式,如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子:
θj:=θj(1−αλm)−α1m∑i=1m(hθ(x(i))−y(i))x(i)j(5) (5) θ j := θ j ( 1 − α λ m ) − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i )
其中
λ λ 就是
正则化参数。
从上式可以看到,与未添加L2正则化的迭代公式相比,每一次迭代,
θj θ j 都要先乘以一个小于1的因子,从而使得
θj θ j 不断减小,因此总得来看,
θ θ 是不断减小的。因此L2正则化可以使模型简单,防止过拟合。
最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释,当L1的正则化系数很小时,得到的最优解会很小,可以达到和L2正则化类似的效果。
4. L2正则化权重衰减的公式推导
将
J=J0+α∑ww2(2) (2) J = J 0 + α ∑ w w 2
写成
C=C0+λ2n∑ωω2 C = C 0 + λ 2 n ∑ ω ω 2
(即:J用C表示,
α α 用
λ2n λ 2 n 表示,为了后面求导的结果方便。)
计算导数:
∂C∂ω=∂C0∂ω+λnω ∂ C ∂ ω = ∂ C 0 ∂ ω + λ n ω
ω→ω′=ω−η∂C∂ω=ω−η(∂C0∂ω+λnω)=ω−η∂C0∂ω−ηλnω=(1−ηλn)ω−η∂C0∂ω ω → ω ′ = ω − η ∂ C ∂ ω = ω − η ( ∂ C 0 ∂ ω + λ n ω ) = ω − η ∂ C 0 ∂ ω − η λ n ω = ( 1 − η λ n ) ω − η ∂ C 0 ∂ ω
在不使用L2正则化时,求导结果中
ω ω 前系数为1,现在
ω ω 前面系数为
1−ηλn 1 − η λ n ,因为η、λ、n都是正的,所以
1−ηλn 1 − η λ n 小于1,它的效果是减小
ω ω ,这也就是
权重衰减(weight decay)的由来。当然考虑到后面的导数项,
ω ω 最终的值可能增大也可能减小。
到目前为止,我们只是解释了L2正则化项有让 ω ω “变小”的效果,但是还没解释为什么 ω ω “变小”可以防止overfitting?一个所谓“显而易见”的解释就是:更小的权值 ω ω ,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。