一步一步分析讲解神经网络基础-gradient descent algorithm

有兴趣的朋友可以看一下paper,百度网盘:https://pan.baidu.com/s/1slRxFZn
看这篇是cs上的一篇paper,将gd算法讲解复杂。打算使用通俗的方式讲解出来。
Gradient descent is a first-order iterative optimization algorithm for finding the minimum of a function. To find a local minimum of a function using gradient descent, one takes steps proportional to the negative of the gradient (or of the approximate gradient) of the function at the current point. If instead one takes steps proportional to the positive of the gradient, one approaches a local maximum of that function; the procedure is then known as gradient ascent.
梯度下降是求一个函数最小值的一阶 迭代 优化 算法 。 为了使用梯度下降找到函数的局部最小值 ,可以采用与当前点的函数的梯度 (或近似梯度)的负值成比例的步骤。 如果取而代之的是与梯度正相关的步骤,则接近该函数的局部最大值 ; 该程序然后被称为梯度上升 。

1,梯度下降算法一般用于求解凸函数的极值。极大值等价于取负的极小值。道理很简单。
2,由于使用的是斜率,所以是梯度最陡峭的步骤,接近最小值。
3,是常见的一种简单的优化算法。
当然还有一些不足:
1,The “Zig-Zagging” nature of the method is also evident below, where the gradient descent method is applied to
一步一步分析讲解神经网络基础-gradient descent algorithm_第1张图片
仔细观察,是有一条Z字路
一步一步分析讲解神经网络基础-gradient descent algorithm_第2张图片

2,通常情况下,函数是非凸函数,并携带多个局部最小值。一般采用随机梯度下降进行回避这种情况发生。

待续。。。。

你可能感兴趣的:(tensorflow1.4)