深度学习-梯度下降法是什么样的?

介绍梯度下降法的blog太多了,而且讲的都很细,但是我自己没大理解梯度更新的公式,最近想明白了,所以记下来。


假设要优化的代价函数是这样滴:,如下图:

深度学习-梯度下降法是什么样的?_第1张图片,其中横坐标是Θ,纵坐标是C。

既然我们的目标是找到一个Θ,使得代价C最小,那么在上图中可以直观的看到C在哪最小。

现在我们任取一个Θ,比如说在C轴右侧虚线处取一个Θ,在这个Θ处,我们求其导数,这个导数肯定是正的,通过观察图片,我们发现这个Θ不能使得C最小,Θ应该再取小一点,Θ现在是大于0的,如果要让Θ变小肯定是减去个大于零的数,而Θ的导数正好是大于零的,那我们正好可以让Θ去减去它的导数,这样不就达到我们的目的了吗?

当然Θ为什么不能减去一个任意的大于零的小数呢?这个先不说,先看看如果Θ减小之后,再求其导数时候,它的导数应该是变小了,我们发现Θ减小的步伐长度越来越小,这不就是个很好的优点吗?


我们再来看,若一开始Θ在C轴的左侧的情况,这个时候,Θ是小于0的,而Θ的导数也是小于零的,为了使C值最小,很直观的看到,应该让Θ往右移动,即增大Θ的值,那我们还继续用让Θ减去Θ的导数的方法,这样不也正好达到我们的目的了吗?而且Θ增大的步伐长度也越来越小,也是个不错的优点。


综合上述分析:

就知道   这个式子的意义跟来历了,其中a也是调节步伐长度的一个超参数。

你可能感兴趣的:(深度学习-理论)