kl距离(散度)&l1范数区别

在这篇文章中:

http://ufldl.stanford.edu/wiki/index.php/稀疏编码

kl散度(divergence)公式:


根据kl散度列出的优化问题的公式,会用到 l1 范数,因此它们是存在某种关系的,但从化简公式的步骤来看,一定不是线性关系。


在深度学习中:

http://deeplearning.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity

使用的kl距离(也可以翻译成kl散度,比上边的公式多了第二项并略有改动),公式如下:


画图如下:

kl距离(散度)&l1范数区别_第1张图片

pj 可以理解为需要求的参数,p为经验值。当pj = p = 0.2时,kl距离为0.

如果换成 l1 距离,则如下图所示:

kl距离(散度)&l1范数区别_第2张图片

该图也可以同样理解——pj 可以理解为需要求的参数,p为经验值。当pj = p = 0时,l1距离为0.


在学习过程中,它们都可以实现稀疏性。但是区别可能类似于 l2 和 l1 范数的区别,具体参考文章:

http://blog.csdn.net/zouxy09/article/details/24971995

L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso(l1范数)在特征选择时候非常有用,而Ridge(l2范数)就只是一种规则化而已。

kl距离(散度)&l1范数区别_第3张图片

kl距离(散度)&l1范数区别_第4张图片



详细讲解 l0 l1 l2 范数,稀疏,规范化

http://blog.csdn.net/zouxy09/article/details/24971995

http://ufldl.stanford.edu/wiki/index.php/稀疏编码

http://www.cnblogs.com/tornadomeet/archive/2013/04/13/3018393.html


很棒的有关神经网络的中文教程,翻译自Stanford吴恩达

http://blog.sina.com.cn/s/blog_46d0a3930101h6nf.html

你可能感兴趣的:(深度学习)