梯度下降法(Gradient Descent)

1 原理

在机器学习的核心内容就是把数据喂给一个人工设计的模型,然后让模型自动的“学习”,从而优化模型自身的各种参数,最终使得在某一组参数下该模型能够最佳的匹配该学习任务。那么这个“学习”的过程就是机器学习算法的关键。梯度下降法就是实现该“学习”过程的一种最常见的方式,尤其是在深度学习(神经网络)模型中,BP反向传播方法的核心就是对每层的权重参数不断使用梯度下降来进行优化。

梯度下降法(gradient descent)是一种常用的一阶(first-order)优化方法,是求解无约束优化问题最简单、最经典的方法之一。我们来考虑一个无约束优化问题 , 其中 为连续可微函数,如果我们能够构造一个序列 ,并能够满足:那么我们就能够不断执行该过程即可收敛到局部极小点,可参考下图。

梯度下降法(Gradient Descent)_第1张图片

梯度下降法可以做什么?

在你测试集上,通过最小化代价函数(成本函数)J(w,b)来训练的参数w和b,

梯度下降法(Gradient Descent)_第2张图片

如图,在第二行给出和之前一样的逻辑回归算法的代价函数(成本函数)

梯度下降法的形象化说明

 

梯度下降法(Gradient Descent)_第3张图片

 在这个图中,横轴表示你的空间参数w和b,在实践中,w可以是更高的维度,但是为了更好地绘图,我们定义w和b,都是单一实数,代价函数(成本函数)J(w,b)是在水平轴w和b上的曲面,因此曲面的高度就是J(w,b)在某一点的函数值。我们所做的就是找到使得代价函数(成本函数)J(w,b)函数值是最小值,对应的参数w和b。


如图,代价函数(成本函数)J(w,b)是一个凸函数(convex function),像一个大碗一样

 

如图,这就与刚才的图有些相反,因为它是非凸的并且有很多不同的局部最小值。由于逻辑回归的代价函数(成本函数)J(w,b)特性,我们必须定义代价函数(成本函数)J(w,b)为凸函数。 初始化w和b,

梯度下降法(Gradient Descent)_第4张图片

可以用如图那个小红点来初始化参数w和b,也可以采用随机初始化的方法,对于逻辑回归几乎所有的初始化方法都有效,因为函数是凸函数,无论在哪里初始化,应该达到同一点或大致相同的点。

 

梯度下降法(Gradient Descent)_第5张图片

 

我们以如图的小红点的坐标来初始化参数w和b。

2. 朝最陡的下坡方向走一步,不断地迭代

梯度下降法(Gradient Descent)_第6张图片

我们朝最陡的下坡方向走一步,如图,走到了如图中第二个小红点处。

梯度下降法(Gradient Descent)_第7张图片

我们可能停在这里也有可能继续朝最陡的下坡方向再走一步,如图,经过两次迭代走到第三个小红点处。

3.直到走到全局最优解或者接近全局最优解的地方

通过以上的三个步骤我们可以找到全局最优解,也就是代价函数(成本函数)J(w,b)这个凸函数的最小值点。

梯度下降法的细节化说明(仅有一个参数)

梯度下降法(Gradient Descent)_第8张图片

假定代价函数(成本函数) J(w)只有一个参数w,即用一维曲线代替多维曲线,这样可以更好画出图像。

梯度下降法(Gradient Descent)_第9张图片

迭代就是不断重复做如图的公式:

:=表示更新参数,

 梯度下降法(Gradient Descent)_第10张图片

 

梯度下降法(Gradient Descent)_第11张图片

整个梯度下降法的迭代过程就是不断地向左走,直至逼近最小值点。

梯度下降法(Gradient Descent)_第12张图片

梯度下降法(Gradient Descent)_第13张图片

 

梯度下降法的细节化说明(两个参数)

逻辑回归的代价函数(成本函数)是含有两个参数的。

梯度下降法(Gradient Descent)_第14张图片

 

你可能感兴趣的:(机器学习,分类,人工智能)