L1和L2的区别和各自的优势

引出

正则化项可以取不同的形式。例如回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:


这里写图片描述

这里,这里写图片描述表示参数向量w的L2范数。

正则化项也可以是参数向量的L1范数:


这里写图片描述

这里这里写图片描述表示参数向量w的L1范数。

L1和L2的定义

L1是绝对值之和,L2是平方之和。

更深层的含义

L1追求的是稀疏,可以理解为变量个数少,L2主要用于处理过拟合问题,让每个权重参数值小?!

L2能加速训练?!


引:

L0范数是指向量中非0元素的个数。如果我们用L0范数来规则化一个参数矩阵W,就是希望W的大部分元素都是0这太直观了,太露骨了吧,换句话说,让参数W是稀疏的。OK,看到了“稀疏”二字,大家都应该从当下风风火火的“压缩感知”和“稀疏编码”中醒悟过来,原来用的漫山遍野的“稀疏”就是通过这玩意来实现的。

你可能感兴趣的:(机器学习实战)