L1 L2正则化及贝叶斯解释


1 L1正则化和L2正则化区别

  • L1得到的是稀疏权值,可以用于特征选择,假设参数服从Laplace分布(贝叶斯角度理解)
  • L2得到的是平滑权值,因为所有权值都趋于最小,假设参数服从Gauss分布,(并趋于一致,因为一致时平方和,最小)

2 L1正则化稀疏解理解

2.1问题转化

L1 L2正则化及贝叶斯解释_第1张图片

2.2图形化解释

 L1 L2正则化及贝叶斯解释_第2张图片

L1 L2正则化及贝叶斯解释_第3张图片

2.3其他理解

L1 L2正则化及贝叶斯解释_第4张图片

L1 L2正则化及贝叶斯解释_第5张图片

L1 L2正则化及贝叶斯解释_第6张图片


2.4 L1求导

求导方法:近端梯度下降

 

参考:

[1]机器学习中的范数规则化之(一)L0L1L2范数   

http://blog.csdn.net/zouxy09/article/details/24971995/

 

[2]l1相比于 l2为什么容易获得稀疏解?

 https://www.zhihu.com/question/37096933?sort=created

 

3贝叶斯角度理解正则化

http://www.voidcn.com/blog/shenxiaoming77/article/p-5011766.html

http://blog.csdn.net/zhuxiaodong030/article/details/54408786

3.1先验知识

  • 正则化是对经验风险函数进行约束,可以理解引入先验知识,具有引导作用,使优化过程中倾向于选择满足约束条件梯度减小的方向进行;
  • 不理解:正则化解决了逆问题的不适定性,产生的解存在、唯一、同时依赖于数据,噪声对不适定性影响弱,解不会过拟合,如果先验合适,其解倾向于符合真解,即使训练集中彼此间不相关样本很少
  • L1 L2正则化可以理解为模型导入了先验分布,对模型进行惩罚,L1正则化引Laplace分布,L2正则化引入Gauss分布

3.2贝叶斯理解

L1 L2正则化及贝叶斯解释_第7张图片

  • 正则化项对应后验概率估计中的先验信息,损失函数对应似然函数,两者乘积得到贝叶斯最大后验概率;
  • 对贝叶斯后验概率,取对,可以转化为:损失函数+正则化项

L1 L2正则化及贝叶斯解释_第8张图片

L1 L2正则化及贝叶斯解释_第9张图片

L1 L2正则化及贝叶斯解释_第10张图片

L1 L2正则化及贝叶斯解释_第11张图片

3.3概率论角度解释平滑与稀疏

  • 高斯分布,对大的w,概率较低,而在接近0的时候,概率变换缓慢,所以对于小概率容忍较好,最终解的w趋于0附近
  • 拉普拉斯分布,只有很小的w,才能得到较大的概率,偏向于0,更加稀疏
  • 分析时要考虑先验,当0较多时,模型偏于简单,先验会较低
L1 L2正则化及贝叶斯解释_第12张图片

3.4极大似然与后验估计

http://www.cnblogs.com/little-YTMM/p/5399532.html

 

  • 最大后验估计可以根据经验数据,对难以观察的量进行估计,如参数估计,与最大似然不同的是,最大后验融入了估计量的先验分布,即事先知道估计量满足的分布模型,因此最大后验估计可以看作规则化的最大似然估计;
  • L1 L2正则化,都可以转化为:极大似然 * 参数的先验模型

L1 L2正则化及贝叶斯解释_第13张图片



你可能感兴趣的:(机器学习)