正则化

结论

规则化就是向你的模型加入某些规则,加入先验,缩小解空间,减小求出错误解的可能性。

0范数,向量中非零元素的个数。
1范数,为绝对值之和。
2范数,就是通常意义上的模。
1范数和0范数可以实现稀疏,实现特征选择。L1因具有比L0更好的优化求解特性而被广泛应用。 L2防止过拟合。一定程度上,L1也可以防止过拟合。
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0。

对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。

解释
带L1正则化的损失函数

当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。令L=α∑|w|,则J=J0+L,此时我们的任务变成在L约束下求出J0取最小值的解。
考虑二维的情况,即只有两个权值w1和w2,此时L=|w1|+|w2|对于梯度下降法,求解J0的过程可以画出等值线,同时L1正则化的函数L也可以在w1w2的二维平面上画出来。如下图:


图中等值线是J0的等值线,黑色方形是L函数的图形。在图中,当J0等值线与L图形首次相交的地方就是最优解。上图中J0与L在L的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象,因为L函数有很多『突出的角』(二维情况下四个,多维情况下更多),J0与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。


对于L2正则化来说,


二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。

你可能感兴趣的:(正则化)