Regulation:L0,L1,L2 (1)

下一篇:

http://www.jianshu.com/p/6111162ba631

有人说监督学习是一个“minimize your error while regularizing your parameters"的过程。在学习过程中,minimize error即减小误差是为了尽可能的使训练的模型拟合训练的数据,而regularize parameters则是为了防止拟合过度。在这里我的理解是,我们对于训练样本,当然是希望尽可能学习到对于训练样本来说最优的模型,如果是分类为题,希望它以最大间隔分开两类,如果是回归问题希望曲线尽可能拟合训练样本。但这里有一个问题,针对训练样本我们有没有必要完完全全地学习出一个一定将两类分开或者一定完美拟合曲线的这样一个模型?当然是没有必要的,这不是我们最终的目的。我们最终的目的是对于新来的一些测试样本或者验证样本,尽最大可能(或者说以最小错误率)地给出预测。因此,尽管模型的训练误差可能是最小的,但是由于他的复杂程度高,对于新样本可能是过拟合的了。这也是为什么我们需要规则化参数,防止过拟合。

简而言之,我们希望做到的是用简单的模型达到较小的错误率。这符合奥卡姆剃刀定律(Occam's  Razor, Ockham's Razor)。奥卡姆剃刀定律原理称为“如无必要,勿增实体”,即“简单有效原理”。也就是说化繁为简,用较少的东西同样可以做好事情。回到监督学习的模型上来,我们要找到的是所有可以做到最小化训练误差模型中最简单的那个。

一般情况下,监督学习可以看作是最小化目标函数值,如下:


公式1

公式1加号左侧第一项表示损失函数,即误差函数,我们希望第一项最小,以尽可能拟合训练样本。加号右侧是一个正则化项(regularizer)或者惩罚项(penalty term), 我们希望测试误差也尽可能的小,约束模型尽可能简单。

规则化函数Ω(w)的作用是约束模型尽可能简单,它一般情况下是模型复杂度的单调递增函数,这样在最小化目标函数值的过程,也就是尽可能降低了模型复杂度以使模型尽可能简单,符合我们的期望。规则化项的参数可以是模型参数向量的范数,那么我们就有很多选择了。比如L0,L1,L2,Frobenius范数等等。以下是我关于范数学习过程的笔记。

下一篇:

你可能感兴趣的:(Regulation:L0,L1,L2 (1))