L0,L1,L2

L0范数

向量中非0的元素的个数

L1范数

向量中各个元素绝对值之和

别名

  • “稀疏规则算子”(Lasso regularization)

L0 L1都可以实现稀疏, L1比L0有更好的优化求解特性

  • L0范数难求解,NP难问题
  • L1是L0范数的最优凸近似,更易于求解

稀疏优点

  • 特征自动选择
    稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。
  • 可解释性

L2范数

向量各元素的平方和然后求平方根
别名

  • 在回归里面,叫“岭回归”(Ridge Regression)或者“权值衰减weight decay”
  • Ridge

优点:

  • 防止过拟合,提升模型泛化能力
  • 有助于处理运算困难问题(condition number不好的情况下矩阵求逆)

condition number是一个矩阵(或者它所描述的线性系统)的稳定性或者敏感度的度量,如果一个矩阵的condition number在1附近,那么它就是well-conditioned的,如果远大于1,那么它就是ill-conditioned的,如果一个系统是ill-conditioned的,它的输出结果就不要太相信了。
对于一个ill-condition的系统,输入稍微改变,输出就发生很大的改变
假设我们有个方程组AX=b,我们需要求解X。如果A或者b稍微的改变,会使得X的解发生很大的改变,那么这个方程组系统就是ill-condition的,反之就是well-condition的。

总结

  • L1会趋向于产生少量的特征,而其他的特征都是0
  • L2会选择更多的特征,这些特征都会接近于0
  • Lasso在特征选择时候非常有用
  • Ridge只是一种规则化

你可能感兴趣的:(机器学习)