改善深度学习算法:优化(Optimization)与正则化(Regularization)

实现机器学习和深度学习算法与编写任何其他类型的软件程序都不同。虽然大多数代码都经历了传统的代码编写、编译/解释、测试和执行这样的生命周期,但是深度学习模型却始终经历着测试和改进过程的永无止境的生命周期。大多数人通常将生命周期的这一部分称为优化(Optimization),但实际上,它还包括深度学习理论的另一个重要领域:正则化(Regularization)。为了了解优化和正则化在深度学习模型中的作用,我们应该首先了解这些模型是如何构成的。

深度学习模型剖析

什么是深度学习算法?显然,我们知道它包含一个模型,但不仅如此,不是吗?使用伪匹配命名法,我们可以使用以下方程式定义深度学习算法:

D L ( x ) = M o d e l ( x ) + C o s t _ F u n c t i o n ( M o d e l ( x ) ) + I n p u t _ D a t a _ S e t ( x ) + O p t i m i z a t i o n ( C o s t _ F u n c t i o n ( x ) ) DL(x)= Model(x) + Cost\_Function(Model(x)) + Input\_Data\_Set (x) + Optimization(Cost\_Function(x)) DL(x)=Model(x)+Cost_Function(Model(x))+Input_Data_Set(x)+Optimization(Cost_Function(x))

利用这种概念公式,我们可以将任何深度学习算法表示为输入数据集、代价函数、深度神经网络模型和优化过程的函数。在本文中,我们主要关注优化过程。

深度学习系统中哪些流程如此具有挑战性?一个词:大小。深度神经网络包括大量的层和隐藏的单元,其中还可能包含许多节点。这种级别的复杂性直接转化为数百万个相互连接的节点,这无疑是优化的噩梦。

在考虑改进深度学习模型时,你应该将精力集中在两个主要方面:

  • 降低代价函数
  • 降低泛化误差

这两个主题已经成为深度学习生态系统中广泛的研究领域,分别被称为优化(Optimization)和正则化(Regularization)。让我们更详细地介绍这两个定义。

正则化(Regularization)

正则化的作用是修改深度学习模型,使其在训练数据集之外的输入中表现良好。具体来说,正则化的重点是在不影响初始训练误差的情况下降低测试或泛化误差。

深度学习领域帮助创造了许多新的正则化技术。它们中的大多数可以总结为优化估计器的函数。通常,正则化技术通过在不增加相应偏差的情况下减少它们的方差来优化估计器。很多时候,找到深度学习问题的解决方案并不是要创建最佳模型,而是要在正确的环境下很好地规范化模型。

优化(Optimization)

在深度学习中有许多类型的优化,但最相关的优化集中在减少模型的代价函数上。这些技术通常通过估计不同节点的梯度并试图通过迭代使其最小化。在深度学习领域众多的优化算法中,随机梯度下降(Stochastic Gradient Descent,SGD)是最受欢迎的一种,在主流深度学习框架中有无数的实现。经常可以发现SGD的许多变体,比如SGD with Momentum在特定的深度学习算法上工作得更好。

在深度学习模型中,我们通常所说的优化实际上是正则化和优化技术的不断组合。对于深度学习的实践者来说,掌握正则化和优化与理解核心算法同样重要,在现实的深度学习解决方案中,正则化和优化无疑扮演着关键的角色。

你可能感兴趣的:(深度学习,深度学习,优化,正则化)