NNDL 作业11:优化算法比较

目录

1. 编程实现图6-1,并观察特征

2. 观察梯度方向

3. 编写代码实现算法,并可视化轨迹 

5. 总结SGD、Momentum、AdaGrad、Adam的优缺点


1. 编程实现图6-1,并观察特征

f(x,y)=\frac{1}{20} x^{2}+y^{2}

import numpy as np
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
 
 
def func(x, y):
    return x * x / 20 + y * y
 
 
def paint_loss_func():
    x = np.linspace(-50, 50, 100)  # x的绘制范围是-50到50,从改区间均匀取100个数
    y = np.linspace(-50, 50, 100)  # y的绘制范围是-50到50,从改区间均匀取100个数
 
    X, Y = np.meshgrid(x, y)
    Z = func(X, Y)
 
    fig = plt.figure()  # figsize=(10, 10))
    ax = Axes3D(fig)
    plt.xlabel('x')
    plt.ylabel('y')
 
    ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap='rainbow')
    plt.show()
 
 
paint_loss_func()

 NNDL 作业11:优化算法比较_第1张图片

NNDL 作业11:优化算法比较_第2张图片 

 

2. 观察梯度方向

 f(x,y)=\frac{1}{20} x^{2}+y^{2}

 上式表示的函数梯度如下图所示: 

由图像能够看出该函数梯度的特征为:

在y轴方向的坡度大,在x轴方向的坡度小。

虽然最小值在(x,y)=(0,0)处,但梯度在很多地方并没有指向(0,0)。

3. 编写代码实现算法,并可视化轨迹 

最优化方法的比较SGD、Momentum、Adagrad、Adam。

NNDL 作业11:优化算法比较_第3张图片

 由图可以看出这四个最优化方法中AdaGrad的收敛效果最好 

5. 总结SGD、Momentum、AdaGrad、Adam的优缺点

SGD

优点

    算法收敛速度快(在Batch Gradient Descent算法中, 每轮会计算很多相似样本的梯度, 这部分是冗余的)
    可以在线更新
    有几率跳出一个比较差的局部最优而收敛到一个更好的局部最优甚至是全局最优

缺点

    容易收敛到局部最优,并且容易被困在鞍点

 
Momentum

优点

    与梯度下降相比,下降速度快,因为如果方向是一直下降的,那么速度将是之前梯度的和,所以比仅用当前梯度下降快。
    对于窄长的等梯度图,会减轻梯度下降的震荡程度,因为考虑了当前时刻是考虑了之前的梯度方向,加快收敛。
    增加了稳定性。
    还有一定摆脱局部最优的能力。

缺点

    其更新方向完全依赖于当前batch计算出的梯度,因而十分不稳定。

AdaGrad

优点

    不同更新频率的参数具有不同的学习率,减少摆动,在稀疏数据场景下表现会非常好;
    允许使用一个更大的学习率α \alphaα,从而加快算法的学习速度;

缺点

    仍需要手动设置一个全局学习率 , 如果学习率设置过大的话,会使regularizer过于敏感,对梯度的调节太大。
    训练到中后期,分母中对历史梯度一直累加,学习率将逐渐下降至0,使得训练提前结束。
    初始化W影响初始化梯度,如果初始梯度很大的话,会导致整个训练过程的学习率很小,导致学习时间变长。

Adam

优点

    结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
    对内存需求较小
    为不同的参数计算不同的自适应学习率
    也适用于大多非凸优化
    适用于大数据集和高维空间

缺点

    可能不收敛。
    可能错过全局最优解。
 

你可能感兴趣的:(算法,python)