2020-10-26 (一)L1正则化与L2正则化

 

目录

一、使用正则化的理由。

二、使用步骤

1.L2正则化

2.L1正则化

3.为何正则化有效

①.直观示例

②. 从图形角度分析

③.从导数角度分析

 

④.其他

4. 其他正则化(一些胡言乱语)

总结

 

一、使用正则化的理由。

   正则化能够降低过拟合风险,将最小化经验风险变为最小化结构风险。

二、使用步骤

1.L2正则化

min \sum (y_{i} - w^{T}x_{i})^{2} + \lambda \left \| w \right \|_{2}

L2正则化如上式,前一项MSE损失函数可以任意,后一项\lambda \left \| w \right \|_{2} 是L2正则化式。范数是赋范空间中定义的一种广义上的“距离”。2范数计算为平方和,例如:令 w = [w_{1},w_{2},w_{3}] , 则  \left \| w \right \|_{2} = w_{1}^{2} + w_{2}^{2} + w_{3}^{2} 。

 

2.L1正则化

min \sum (y_{i} - w^{T}x_{i})^{2} + \lambda \left \| w \right \|_{1}

同理,L1正则化使用L1范数。L1范数计算方式为向量各元素绝对值之和。同上例条件,\left \| w \right \|_{1} = \left | w_{1} \right | + \left | w_{2} \right | + \left | w_{3} \right | 。

3.为何正则化有效

①.直观示例

2020-10-26 (一)L1正则化与L2正则化_第1张图片

    上图出自吴恩达课程房价预测的例子。比较左右两种解,右侧解发生了过拟合,这个函数曲线使用了更多参数且参数绝对值可能较大。加入正则化后,最小化目标添加了正则项,因此要在损失相同的函数族中选择能使  \left \| \theta \right \|_{2} 最小的那一个,即选择参数平方和最小的解,这往往意味着该函数参数数量较小且绝对值较小。因此正则化之后,算法选择左边更加平滑的解,避免过拟合。

 

②. 从图形角度分析

2020-10-26 (一)L1正则化与L2正则化_第2张图片

       在二维参数空间中举例,L2范数的代价函数  min \sum (y_{i} - w^{T}x_{i})^{2} + \lambda \left \| w \right \|_{2} ,在拉格朗日乘数法的转化下,可以将正则化项写成约束条件:st. \left \| w \right \|_{2} \leq C ,其中C是与λ成反比的常量。考虑两种范数计算方法可知,2范数约束空间为左侧黄色圆,1范数约束的空间为右侧黄色菱形。

       蓝色圆圈是代价函数的等值线,圆心是全局最小值对应的W。求解目标函数,就是在黄色区域内,求使得函数值最小的W。在我们举的例子中,左侧最小值只有出现在坐标轴上,求解的w1与w2才有一个为零。右侧只有最小值出现在棕色区域,w1与w2才均不为零。这也是L2与L1的区别,L1会导致更加稀疏的解。但不管怎样,正则化的目标函数解都选择更小的参数。

 

③.从导数角度分析

2020-10-26 (一)L1正则化与L2正则化_第3张图片

      转自知乎,考虑只有一个参数w, 则L2(w的平方)的导数为2w,L1的导数在0处无定义,但是两侧极限反号,因此w = 0是函数的极值点。

2020-10-26 (一)L1正则化与L2正则化_第4张图片

 

④.其他

      包括但不局限于PAC学习,Stein估计,先验概率等角度。

 

4. 其他正则化(一些胡言乱语)

        一般来说,正则项使用任意Lp范数(无穷除外)都可以起到约束参数空间,简化模型复杂度的作用。不使用Lp范数猜测是因为该项梯度在远离零的地方太大,不使用L0范数是因为L0范数最优化是NP难的。

        smooth L1 = 0.5x^{2} \left ( \left | x \right | < 1 \right )

                               \left | x \right | - 0.5\left ( ohther \right )

        平滑L1正则化在 x较小时,对 x的梯度也会变小,而在 x很大时,对 x的梯度的绝对值达到上限 1,也不会太大以至于破坏网络参数。  完美地避开了L1和L2损失的缺陷。

总结

简单介绍了最常见的两种正则化L1与L2及它们的特点。

你可能感兴趣的:(ML基础,机器学习,深度学习,正则化)