Deep learning 阅读笔记-1

1 正则化

没有免费午餐定理暗示我们必须在特定任务上设计性能良好的机器学习算法。假设空间的函数来增加或减少模型的表示容量。我们列举的一个具体示例是线性回归增加或减少多项式的次数。算法的效果不仅很大程度上受影响于假设空间的函数数量,也取决于这些函数的具体形式。我们已经讨论的学习算法(线性回归)具有包含其输入的线性函数集的假设空间。对于输入和输出确实接近线性相关的问题,这些线性函数是很有用的。对于完全非线性的问题它们不太有效。例如,我们用线性回归,从 x 预测 sin(x),效果不会好。因此我们可以通过两种方式控制算法的性能,一是允许使用的函数种类,二是这些函数的数量。

在假设空间中,相比于某一个学习算法,我们可能更偏好另一个学习算法。这意味着两个函数都是符合条件的,但是我们更偏好其中一个。只有非偏好函数比偏好函数在训练数据集上效果明显好很多时,我们才会考虑非偏好函数。例如,我们可以加入 权重衰减(weight decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化训练集上的均方误差和正则项的和 J(w),其偏好于平方 L2 范数较小的权重。具体如下:

J(w) = MSE(train) + λw⊤w

其中 λ 是提前挑选的值,控制我们偏好小范数权重的程度。当 λ = 0,我们没有任何偏好。越大的 λ 偏好范数越小的权重。最小化 J(w) 可以看作是拟合训练数据和偏好小权重范数之间的权衡。这会使得解决方案的斜率较小,或是将权重放在较少的特征上。我们可以训练具有不同 λ 值的高次多项式回归模型,来举例说明如何通过权重衰减控制模型欠拟合或过拟合的趋势。如图所示。


更一般地,正则化一个学习函数 f(x; θ) 的模型,我们可以给代价函数添加被称为 正则化项(regularizer)的惩罚。在权重衰减的例子中,正则化项是 Ω(w) = w⊤w。

你可能感兴趣的:(Deep learning 阅读笔记-1)