通俗理解梯度下降法

机器学习贴士:梯度下降法

机器学习包含的内容很多,数据分析,模型选择和模型求解则是其中非常重要的三个步骤。

通俗理解梯度下降法_第1张图片


其中模型求解算法主要分为两种,一种是基于数值最优化的,一种是基于统计采样的。今天小编这里将介绍被使用非常广泛的算法之一,最速梯度下降法,这种方法是数值最优化的最基本算法。注意现在被炒的火热的深度学习中最基本的求解思想就是利用最速下降法更新权重。


通俗理解梯度下降法_第2张图片


为了帮助大家理解最速下降法的工作原理,小编这里同样将用最简单的案例来说明。想象一个函数为x的平方,我们想找到这个函数的最小值(虽然大家马上就反应出来答案为0,但是容小编先继续)。

通俗理解梯度下降法_第3张图片


我们的目标是找到最好的变量x使其让函数f(x)最小

机器学习贴士:梯度下降法

这里的s.t.代表subject to,意思是使得,所以翻译过来就是找到最小的x让f(x)最小化,使得x在实数范围内。考虑某个初始值(比如0.5),有f(0.5)=0.25

通俗理解梯度下降法_第4张图片


从初始值出发,我们要找到函数是如何下降的,这个时候我们需要运用到高等数学里面的泰勒展开知识。泰勒展开是指满足某些要求的函数可以使用无穷个多项式等价表示这个函数,通常有:

机器学习贴士:梯度下降法

对应过来,我们在0.5处展开函数有

机器学习贴士:梯度下降法

在0.5附近我们知道二次项的影响远比一次项要小,所以我们只需要沿着一次导的逆向移动就可以了,发现一次项前面的系数是大于0的,所以我们只需要沿着x轴减小0.5即可。额外的,我们需要指定每次减少的步长,这里我们统一指定为0.1好了(如果指定0.5就一步到位了)


通俗理解梯度下降法_第5张图片

可以发现相比于0.5,0.4更加贴近最小值了,最速下降法反复迭代则有


通俗理解梯度下降法_第6张图片


可以发现最终越来越接近我们的目标值0,我们如果给定终止条件,会发现最后算得的最优值几乎为0 。以上就是最速下降法的最基本工作原理,是不是非常简单易懂啊。

稍微展开

向量形式有机器学习贴士:梯度下降法

最速下降法会按照其负梯度方向的方向前进。其次就是下降步长的选择问题,一般我们将步长选择看做线性搜索(line search)问题,找到一个比较好的步长(而非刚才的指定)。这里面就会涉及到比较多的最优化内容,有时间再细讲。


通俗理解梯度下降法_第7张图片


再有就是通常负梯度方向并不是一个好的下降方向,很多情况需要很多步骤才能收敛,此时会使用高斯法等高阶方法替代。但是由于最速下降法的实现简单等原因,其在机器学习中还是有非常多的应用。



原网站:http://www.toutiao.com/i6321277959084704257/

你可能感兴趣的:(机器学习)