DeepLearning与Local minima

Yoshua Bengio研究组通过实验发现,在训练高维(参数)神经网络时,几乎不会遇到局部极小点(这与我们以往的直觉相背),但会存在鞍点,而这些鞍点只在某些维度上是局部极小的鞍点会显著减缓神经网络的训练速度,直到在训练过程中找到正确的逃离方向。从下图可以明显看出这种现象,每当到达一个鞍点,都会“震荡”多次最终逃逸。

DeepLearning与Local minima_第1张图片

Bengio提供了一个浅显易懂的解释:我们假设在某个维度上,一个点是局部极小点的概率为p。那么这个点在1000维的空间下是局部极小点的概率则为p^1000,是一个典型的小概率事件。而该点在少数几个维度上局部极小的概率则相对较高。在参数优化过程中,当到达这些点的时候训练速度会明显变慢,直到找到正确的方向。

另外,概率p会随着损失函数逐渐接近全局最优点而不断增大。这意味着,当网络收敛到一个真正的局部极小点时,通常可以认为该点已经离全局最优足够接近了。

你可能感兴趣的:(DeepLearning与Local minima)