机器学习(四):批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)

本文基于吴恩达老师的机器学习课程。看了吴恩达老师的机器学习课程,收获很多,想把课上学做的笔记结合自己的理解以及找到的一些资料综合起来做一个总结。大家感兴趣也可以自己去看一看吴恩达老师的课,这套课程,被公认为最好的机器学习的入门教程,下面是课程视频链接:

斯坦福大学公开课 :机器学习课程

上一篇博客机器学习(三):线性回归:梯度下降算法讲了用最小二乘法求得损失函数,再用梯度下降算法最小化损失函数,使得和原数据拟合。这篇博客接着讲梯度下降的三种方式。

 


梯度下降算法需要对损失函数求梯度,也就是求导,上篇博客中我们求得损失函数为:

J(\Theta )=\frac{1}{2}\sum_{i=1}^{m}(H_{\Theta }(X^{(i)})-Y^{(i)})^{2}

\Theta_{i}的更新表达式为:

\Theta_{i} :=\Theta_{i}-\alpha (H_{\Theta }(X)-Y)*X_{i}

一、批量梯度下降(Batch Gradient Descent)

批量梯度下降法是最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行梯度的更新。我们把上篇博客得到的表达式递推到具有m个训练样本,然后对损失函数求导得到(这里j表示特征数,求导步骤就不写了,很容易可以求出来):

\frac{\partial J(\Theta_{0},\Theta _{1} )}{\partial \Theta _{j}}=\frac{1}{m}\sum_{i=1}^{m}(H_{\Theta }(X^{(i)})-Y^{(i)})X^{(i)}_{j}

相应的\Theta_{i}的更新表达式为:

\Theta _{j}=\Theta_{i}-\alpha \frac{1}{m}\sum_{i=1}^{m}(H_{\Theta }(X^{(i)})-Y^{(i)})X^{(i)}_{j}

我们要不断重复这一步直到算法收敛,也就是对\Theta_{j}参数不断更新,直到梯度为0。但是,我们的每次迭代更新,都要对所有的m个样本数据进行求和。

那么我们如何检测\Theta是否已经收敛了呢?一种是检验两次迭代,如果两次迭代中,\Theta是否改变了很多,如果在两次迭代中没怎么改变,我们或许就可以说算法有可能收敛了。另一种,更常用的方法是,检验\Theta的值,如果你试图最小化的量不再发生很大的改变时,你也许就可以认为它收敛了。

优点:
  (1)一次迭代是对所有样本进行计算,此时利用矩阵进行运算实现了并行
  (2)由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,批量梯度下降一定能够得到全局最优解

缺点:
  (1)有时我们会遇到样本数目 m 很大的训练集合,如果有几十上百万,甚至上亿的训练样本。这意味着我们每执行一次批梯度下降算法,都要对m个样本进行求和。我们的程序也就需要检测这上百万的样本,甚至我们完成值下降的第一步都十分困难。这样会导致,训练过程很慢花费很长的时间

机器学习(四):批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)_第1张图片

那么,当我们遇到这样非常大的数据集的时候怎么办呢?我们应该使用另一种梯度下降算法——随机梯度算法。

 


二、随机梯度下降(Stochastic Gradient Descent)

有时也称为增量梯度下降(incremental gradient descent),它的具体思路是:算法中对\Theta的每次更新不需要再全部遍历一次整个样本,只需要查看一个训练样本进行更新,之后再用下一个样本进行下一次更新,像批梯度下降一样不断迭代更新。这样,如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就可以迭代完了。如果我们一定需要一个大规模的训练集,我们可以尝试使用随机梯度下降法来代替批量梯度下降法。

随机梯度下降算法调整参数的速度会快很多,在批梯度下降法还没有完成一次迭代的时候,随机梯度下降法便已经走了好远了。但是随机梯度下降存在一定的问题,噪音比批梯度下降要多,使得它并不是每次迭代都向着整体最优化方向迈出的,因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值得那一点,而是在最小值的附近徘徊。

注意点:随机梯度下降法的外层我们一般认为1-10都是合理的,当然如果m非常的大,即是内层循环非常的大,那么我们外层这时候可以设置为1为合理的。

优点:
  (1)由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快

缺点:
  (1)准确度下降。由于即使在目标函数为强凸函数的情况下,SGD仍旧无法做到线性收敛。
  (2)可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势。
  (3)不易于并行实现

机器学习(四):批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)_第2张图片

从迭代的次数上来看,随机梯度下降算法迭代的次数较多,在解空间的搜索过程看起来很盲目。

 


三、小批量梯度下降(Mini-Batch Gradient Descent)

小批量梯度下降,是对批量梯度下降以及随机梯度下降的一个折中办法。其具体思路是:每次迭代使用 ** batch_size** 个样本来对参数进行更新。它克服上面两种方法的缺点,又同时兼顾两种方法的优点。

机器学习(四):批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)_第3张图片

优点:
  (1)通过矩阵运算,每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
  (2)每次使用一个batch可以大大减小收敛所需要的迭代次数,同时可以使收敛到的结果更加接近梯度下降的效果。(比如上例中的30W,设置batch_size=100时,需要迭代3000次,远小于随机梯度下降的30W次)
  (3)可实现并行化。

缺点:
  (1)batch_size的不当选择可能会带来一些问题。

小批量的梯度下降可以利用矩阵和向量计算进行加速,还可以减少参数更新的方差,得到更稳定的收敛。在小批梯度下降中,学习速率一般设置的比较大,也就是\Theta_{i}的更新表达式中的\alpha。随着训练不断进行,可以动态的减小学习速率,这样可以保证一开始算法收敛速度较快。实际中如果目标函数平面是局部凹面,传统的随机梯度下降往往会在此震荡,因为一个负梯度会使其指向一个陡峭的方向,目标函数的局部最优值附近会出现这种情况,导致收敛很慢,这时候需要给梯度一个动量(momentum),使其能够跳出局部最小值,继续沿着梯度下降的方向优化,使得模型更容易收敛到全局最优值

batcha_size的选择带来的影响:
  (1)在合理地范围内,增大batch_size的好处:
    a. 内存利用率提高了,大矩阵乘法的并行化效率提高。
    b. 跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。
    c. 在一定范围内,一般来说 Batch_Size 越大,其确定的下降方向越准,引起训练震荡越小。
  (2)盲目增大batch_size的坏处:
    a. 内存利用率提高了,但是内存容量可能撑不住了。
    b. 跑完一次 epoch(全数据集)所需的迭代次数减少,要想达到相同的精度,其所花费的时间大大增加了,从而对参数的修正也就显得更加缓慢。
    c. Batch_Size 增大到一定程度,其确定的下降方向已经基本不再变化。
 下图显示了三种梯度下降算法的收敛过程:

机器学习(四):批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)_第4张图片

 


四、梯度下降算法的调优方法(目的:加快收敛速度)

对比我们上面列出来的三种算法的优缺点,做个总结:如果样本量比较小,采用批量梯度下降算法。如果样本太大,或者在线算法,使用随机梯度下降算法。在实际的一般情况下,采用小批量梯度下降算法。

当选择好了使用BGD、SGD、MBGD其中一个梯度下降方式后,对下降梯度算法需要进行调优,那么应该从哪些方面进行调优?

4.1 学习速率(Learning Rate)\alpha调优

\Theta迭代结算公式中,其中的偏导数的系数\alpha是学习速率(Learning Rate),且\alpha>0。

1)固定的\alpha\alpha太大的话,导致迭代次数变少(因为\Theta增量变大),学习速率变快,训练快。但是\alpha不是越大越好,如果\alpha太大的话,会导致梯度下降算法在图形的上坡和下坡上面来回震荡计算,严重的结果可能无法收敛;

2)固定的\alpha\alpha太小的话,导致迭代次数变多(因为\Theta增量变小),学习速率变慢,训练慢。但是\alpha不是越小越好,如果\alpha太小的话,会导致梯度下降算法在图形迭代到最优点处整个过程需要训练很长时间,导致训练太慢,虽然可以取得最优\Theta

3)变化的\alpha,当梯度大的时候,学习速率变大,梯度小的时候,学习速率变小。则学习速率和梯度是一个正相关,可以提高下降算法的收敛速度。\alpha和梯度的正相关有一个比例系数,称为Fixed Learning Rate。Fixed Learning Rate一般取0.1或者0.1附件的值,可能不是最好但是一定不会太差

4.2选取最优的初始值\Theta

首先,初始值\Theta不同,获得的代价函数的最小值也可能不同,因为每一步梯度下降求得的只是当前局部最小而已。所以需要多次进行梯度下降算法训练,每次初始值θ都不同,然后选取代价函数取得的最小值最小的那组初始值\Theta

4.3特征数据归一化处理

样本不相同,特征值的取值范围也一定不同。特征值的取值范围可能会导致迭代很慢。所以就要采取措施减少特征值取值范围对迭代的影响,这个措施就是对特征数据归一化。

数据归一化方法有:1)线性归一化,2)均值归一化。一般图像处理时使用线性归一化方法,比如将灰度图像的灰度数据由[0,255]范围归一化到[0,1]范围。如果原始数据集的分布近似为正态分布(也叫高斯分布),那么可以使用均值归一化对数据集进行归一化,归一化为:均值为0,方差为1的数据集。这里面采用均值归一化,均值归一化的公式如下所示:

Z=\frac{X-\mu }{\sigma }

其中\mu是原始数据集的均值,\sigma是原始数据的标准差,求出来的归一化数据的特点是:均值为0,方差为1的数据集。

经过特征数据归一化后,梯度下降算法会在期望值为0,标准差为1的归一化特征数据上进行迭代计算\Theta,这样迭代次数会大大加快

 


五、不使用迭代算法对最小值的快速推导

上面我们都是在使用梯度下降算法通过迭代来最小化求\Theta的值,如果不使用梯度下降有没有别的方法呢?当然有,有一种被称为正规方程法(normal equation method),其中要用到矩阵进行计算。现在我们就来说一下如何使用这种方法,这里需要一点线性代数的基础。

会用到的一些定义:

(1)对矩阵求导:如果有一个关于参数数组\Theta的函数Y(\Theta ),其中\Theta为n+1维向量\Theta =(\Theta _{0},\Theta _{1},.....\Theta_{n})^{T},我们定义这个倒三角\bigtriangledown来表示求梯度,\bigtriangledown _{\Theta }Y表示Y的梯度关于\Theta的导数(\bigtriangledown _{\Theta }Y\in \mathbb{R}^{n+1}),\bigtriangledown _{\Theta }Y属于n+1维向量。

\bigtriangledown _{\Theta }Y=\begin{bmatrix} \frac{\partial Y}{\partial \Theta _{0}}\\ .......\\ .......\\ \frac{\partial Y}{\partial \Theta _{n}}\end{bmatrix}

(2)矩阵的迹:如果矩阵A\in \mathbb{R}^{n*n},我们称tr(A)为矩阵A的迹,那么tr(A)= \sum_{i=1}^{n}A_{ii}

下面是一些关于迹和导数的结论:

(1)tr(AB)=tr(BA)

         tr(ABC)=tr(CAB)=tr(BCA)

(2)如果f(A)=tr(AB),也就是函数f()以矩阵A为输入,输出实数tr(AB),那么\triangledown_{A} tr(AB)=B^{T}

(3)tr(A)=tr(A^{T})

(4)如果a是一个实数,那么tr(a)=a

(5)\bigtriangledown _{A}tr(ABA^{T}C)=CAB+C^{T}AB^{T}

上面的结论我们一会会用到,现在我们开始推导,定义一个矩阵X,它被称为设计矩阵,将它定义成包含了训练集中所有输入的矩阵。

X=\begin{bmatrix} ...(X^{(1)})^{T}...\\ .............\\ .............\\ ...(X^{(m)})^{T}...\end{bmatrix} 

 \therefore X\Theta =\begin{bmatrix} ...(X^{(1)})^{T} ...\\ .............\\ .............\\ ...(X^{(m)})^{T} ...\end{bmatrix}*\begin{bmatrix} \Theta _{0}\\ ...\\ ...\\ \Theta_{n}\end{bmatrix}=\begin{bmatrix} ...(X^{(1)})^{T}\Theta ...\\ .............\\ .............\\ ...(X^{(m)})^{T}\Theta ...\end{bmatrix}=\begin{bmatrix} ...H_{\Theta}(X^{(1)}) ...\\ .............\\ .............\\ ...H_{\Theta}(X^{(m)}) ...\end{bmatrix}

同样,我们将向量Y定义为所有训练集合中的数据的目标值,从Y^{(1)}Y^{(m)}

Y=\begin{bmatrix} Y^{(1)}\\ ...\\ ...\\ Y^{(m)}\end{bmatrix}

\therefore X\Theta -Y=\begin{bmatrix} H(X^{(1)})-Y^{(1)}\\ ......\\ ......\\ H(X^{(1)})-Y^{(m)}\end{bmatrix}

所以,现在X\Theta -Y是一个对应着m个训练样本的m维向量,我们要用最小二乘法求损失函数,所以接着把这向量和自己做内积,还要乘以\frac{1}{2}

\frac{1}{2}(X\Theta-Y)^{T}(X\Theta-Y)=\sum_{i=1}^{m}H(X^{(i)}-Y^{(i)})^{2}=J(\Theta)

因为要求最小值,最小值处导数为0,我们把J(\Theta)的导数设为0:

\bigtriangledown _{\Theta}J(\Theta)=0

\therefore\bigtriangledown _{\Theta}J(\Theta)= \bigtriangledown _{\Theta}\frac{1}{2}(X\Theta-Y)^{T}(X\Theta-Y)=\frac{1}{2}\bigtriangledown _{\Theta}(X\Theta-Y)^{T}(X\Theta-Y)

=\frac{1}{2}\bigtriangledown _{\Theta}(\Theta^{T}X^{T}X\Theta-\Theta^{T}X^{T}Y-Y^{T}X\Theta+Y^{T}Y)

因为这两个向量的内积是一个实数,根据上面的结论(4),一个实数的迹还是它本身,所以我们在前面加上一个求迹的运算符,而不会有任何影响:

=\frac{1}{2}\bigtriangledown _{\Theta}tr(\Theta^{T}X^{T}X\Theta-\Theta^{T}X^{T}Y-Y^{T}X\Theta+Y^{T}Y)

=\frac{1}{2}\left [ \bigtriangledown _{\Theta}tr(\Theta^{T}X^{T}X\Theta)-\bigtriangledown _{\Theta}tr(\Theta^{T}X^{T}Y)-\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)+\bigtriangledown _{\Theta}tr(Y^{T}Y)\right ]

=\frac{1}{2}\left [ \bigtriangledown _{\Theta}tr(\Theta\Theta^{T}X^{T}X)-\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)-\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)\right ]

这一步中,用了结论(2)把第一项的\Theta调到了前面。然后用了结论(3),把第二项转置后在求迹是一样的。最后一项因为其中并不依赖于\Theta,所以求导后为0,可以直接舍弃。

然后对第一项我们使用结论(5),\Theta为结论中的A,单位矩阵I为结论中的BX^{T}X为结论中的C

tr(\Theta\Theta^{T}X^{T}X)=X^{T}X\Theta*I+X^{T}X\Theta*I

对第二项使用结论(2)

\bigtriangledown _{\Theta}tr(Y^{T}X\Theta)=X^{T}Y

最后全带入\bigtriangledown _{\Theta}J(\Theta)=0

\frac{1}{2}\left [ X^{T}X\Theta+X^{T}X\Theta-X^{T}Y-X^{T}Y \right ]=0

X^{T}X\Theta-X^{T}Y=0

X^{T}X\Theta=X^{T}Y

\Theta=(X^{T}X)^{-1}X^{T}Y

这就是我们最后得到的\Theta的解析表达式了,这就是我们的另一种正规方程法来求解最小二乘拟合,使得我们不再需要使用类似于梯度下降这样的迭代算法。如果我们使用梯度下降算法迭代求解,绝对不可能像这样快就求出解。

 

写的若有错误之处,欢迎大家批评指正!

 

机器学习(五):欠拟合、过拟合与局部加权回归算法

你可能感兴趣的:(机器学习)