机器学习中的L0、L1与L2范数

机器学习中的L0、L1和L2范数

一般来说,监督学习一般可以看作最小化下面的目标函数。

ω=argminωiL(yi,f(xi;ω))+λΩ(ω) ω ∗ = arg ⁡ min ω ⁡ ∑ i L ( y i , f ( x i ; ω ) ) + λ Ω ( ω )

其中第一项是我们的误差函数,第二项是正则化项。
对于第一项Loss函数,如果是Square loss,那就是最小二乘;如果是Hinge Loss,那就是SVM;如果是exp-Loss,那就是Boosting;如果是log-Loss,那就是Logistic Regression了。

L0范数

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。但是对L0范数的优化求解问题是NP难问题,计算困难。

L1范数

L1范数是L0范数的最优凸近似,比L0范数更容易优化求解,不仅可以有助于降低模型过拟合,同时相比L2范数更容易获得稀疏解,实现特征的自动选择。它会学习到没有用的特征,将这部分特征的权重置为0。为什么容易获得稀疏解,可以参见西瓜书P252。当模型是线性模型,正则项是L1正则时,如下目标函数,此时就是岭回归。L1问题的正则化求解可以使用近端梯度下降的方法(PGD)。

minωim(yiωTxi)+λω1 min ω ⁡ ∑ i m ( y i − ω T x i ) + λ ‖ ω ‖ 1

L2范数

L2范数也常被用作避免过拟合的正则项,相比L1正则,它可以使得系数 ω ω 接近于0而不是0。当模型是线性模型,正则项是L2正则时,如下目标函数,此时是Lasso回归。

minωim(yiωTxi)+λω22 min ω ⁡ ∑ i m ( y i − ω T x i ) + λ ‖ ω ‖ 2 2

你可能感兴趣的:(Mechine,Learning)