每天五分钟机器学习:L1正则化和L2正则化有什么区别?

本文重点

正则化包含L1正则化和L2正则化,本文将介绍一下这两个正则化有什么不同?

正则化

L1正则化

L1正则化目的是减少参数的绝对值总和,定义为:

每天五分钟机器学习:L1正则化和L2正则化有什么区别?_第1张图片

 

L2正则化

L2正则化的目的是减少参数平方的总和,定义为:

每天五分钟机器学习:L1正则化和L2正则化有什么区别?_第2张图片

 

二者的区别?

1、L1正则化会使得某一维的权重为0,产生稀疏权重矩阵。L2正则化的最优的参数值很小概率会出现在坐标轴上,因此每一维的参数都不会是0。

2、L1正则化假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。L2正则化假设权重w的先验分布为高斯分布,由最大后验概率估计导出。

为什么L1正则化假设权重w的先验分布为拉普拉斯分布?为什么L2正则化假设权重w的先验分布为高斯分布?

要想搞懂这个需要明白最大似然估计和最大后验估计。

最大似然估计:把待估计的参数看作是确定性的量,其最佳估计就是使得产生已观察到的样本的概

你可能感兴趣的:(每天五分钟玩转机器学习算法)