吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1

在第一门课中已经学习了如何建立一个神经网络,或者浅层的,或者深度的。而这第二门课,我们将着重讨论和研究如何优化神经网络模型,例如调整超参数,提高算法运行速度等等。

Week1:深度学习的实践层面(Practical of Deep Learning)

1.1 训练,验证,测试集(Train / Dev / Test sets)

  1. 模型创建的迭代过程
    • 在构建一个神经网络的时候,我们需要设置许多参数,而且很对是超参数,例如:神经网络的层数、每个隐藏层包含的神经元个数、学习因子(学习速率)、激活函数的选择等等。很难在第一次设置的时候就选择到这些最佳的参数,而是需要通过不断地迭代更新来获得。

    • 循环迭代的过程是这样的:

      • 先有个想法Idea,先选择初始的参数值,构建神经网络模型结构;
      • 然后通过代码Code的形式,实现这个神经网络;
      • 最后,通过实验Experiment验证初始参数对应的神经网络的表现性能。

      根据验证结果,我们对参数进行适当的调整优化,再进行下一次的Idea->Code->Experiment循环。通过很多次的循环,不断调整参数,选定最佳的参数值,从而让神经网络性能最优化。
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第1张图片

    • 最适合某个领域的深度学习网络往往不能直接应用在其它领域上。

      • 解决不同问题的最佳选择是根据样本数量、输入特征数量和电脑配置信息(GPU或者CPU)等,来选择最合适的模型。即使是最有经验的深度学习专家也很难第一次就找到最合适的参数。
      • 深度学习模型的选择是一个反复迭代的过程,需要通过反复多次的循环训练得到最优化参数。
      • 决定整个训练过程快慢的关键在于单次循环所花费的时间,单次循环越快,训练过程越快。而设置合适的Train/Dev/Test sets数量,能有效提高训练效率。
  2. Train/Dev/Test sets数量的选取
    • 相关定义:
      • Train sets:训练你的算法模型;
      • Dev sets:验证不同算法的表现情况,从中选择最好的算法模型;
      • Test sets:测试最好算法的实际表现,作为该算法的无偏估计。
    • 选取方法:
      • 小数据时代:
        • Train sets:Test sets的比例为:70%和30%。
        • Train:Dev:Test sets的比例为:60%:20%:20%。
      • 大数据时代:
        • 有100万条数据,其中1万条作为验证集,1万条作为测试集,即:训练集占98%,验证集和测试集各占1%。
        • 对于数据量过百万时,训练集可以占到99.5%,验证和测试集各占0.25%,或者验证集占0.4%,测试集占0.1%。
  3. Train/Dev/Test sets数据无偏差性
    • 训练样本和测试样本分布要匹配,即:训练样本和测试样本来要同分布。

      假设你开发一个手机app,可以让用户上传图片,然后app识别出猫的图片。在app识别算法中,你的训练样本可能来自网络下载,而你的验证和测试样本可能来自不同用户的上传。
      从网络下载的图片一般像素较高而且比较正规,而用户上传的图片往往像素不稳定,且图片质量不一。因此,训练样本和验证/测试样本可能来自不同的分布。解决这一问题的比较科学的办法是尽量保证Dev sets和Test sets来自于同一分布。

    • 训练样本非常重要,当数据量不够时,可以将现有的训练样本做一些处理,例如:图片的翻转、假如随机噪声等,来扩大训练样本的数量,从而让该模型更加强大。即使Train sets和Dev/Test sets不来自同一分布,使用这些技巧也能提高模型性能。

1.2 偏差,方差(Bias /Variance)

  1. 定义
    偏差(Bias)和方差(Variance)是机器学习领域非常重要的两个概念和需要解决的问题。
    在这里插入图片描述
    据上图, 高 偏 差 ( b i a s ) 意 味 着 欠 拟 合 , 高 方 差 ( v a r i a n c e ) 意 味 着 过 拟 合 \color{red}高偏差(bias)意味着欠拟合,高方差(variance)意味着过拟合 (bias)(variance)
    • 在传统的机器学习算法中,Bias和Variance是对立的,分别对应着欠拟合和过拟合,我们常常需要在Bias和Variance之间进行权衡。
    • 而在深度学习中,我们可以同时减小Bias和Variance,构建最佳神经网络模型。
  2. 数据适度拟合(just right)
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第2张图片
    • 以猫识别为例子,输入是一幅图像,其特征维度很大。这种情况下,我们可以通过两个数值训练集误差(Train set error)和验证集误差(Dev set error)来理解bias和variance。
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第3张图片

      • 假定训练集误差是 1%,验证集误差是 11%,可以看出训练集设置得非常好,而验证集结果相对较差, 我们可能过度拟合了训练集,在某种程度上,验证集并没有充分利用交叉验证集的作用, 像这种情况, 我们称之为“高方差(variance)”。
      • 假设训练集误差是 15%,验证集误差是 16%,假设该案例中人的错误率几乎为 0%,人们浏览这些图片,分辨出是不是猫。

        算法并没有在训练集中得到很好训练,如果训练数据的拟合度不高,就是 数 据 欠 拟 合 \color{red}数据欠拟合 ,就可以说这种算法 偏 差 ( b i a s ) 比 较 高 \color{red}偏差(bias)比较高 (bias)
        相反,它对于验证集产生的结果却是合理的,验证集中的错误率只比训练集的多了 1%,所以这种算法偏差高,因为它甚至不能拟合训练集。

      • 假设训练集误差是 15%,偏差相当高,但是,验证集的评估结果更糟糕,错误率达到 30%,在这种情况下,我会认为这种算法偏差高,因为它在训练集上结果不理想,而且方差也很高,这是方差偏差也很糟糕的情况。
      • 假设训练集误差是 0.5%,验证集误差是 1%,用户看到这样的结果会很开心,偏差和方差都很低

      以上分析的假设条件:
      这些分析都是基于假设预测的,假设人眼辨别的错误率接近 0%,一般来说,最优误差也被称为 贝 叶 斯 误 差 \color{red}贝叶斯误差 ,所以,最优误差接近 0%。如果最优误差或贝叶斯误差非常高,比如 15%。我们再看看这个分类器(训练误差 15%,验证误差 16%), 15%的错误率对训练集来说也是非常合理的,偏差不高,方差也非常低。

    • high bias and high variance的模型:
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第4张图片
      模型既存在high bias也存在high variance,可以理解成某段区域是欠拟合的,某段区域是过拟合的。


1.3 机器学习基础(Basic Recipe for Machine Learning)

机器学习和深度学习的目标就是: 避 免 出 现 h i g h    b i a s 和 h i g h    v a r i a n c e \color{red}避免出现high\;bias和high\;variance highbiashighvariance

  • 减少high bias的方法
    • 增加神经网络的隐藏层个数、神经元个数;
    • 训练时间延长;
    • 选择其它更复杂的NN模型(这个要重复尝试,不一定一次就能有效)。
    • 注 \color{red}注 :在base error不高的情况下,一般都能通过这些方式有效降低和避免high bias,至少在训练集上表现良好。一旦偏差降低到可以接受的数值,检查一下方差有没有问题
  • 减少high variance的方法
    • 增加训练样本数据;
    • 进行正则化Regularization;
    • 选择其他更复杂的NN(The neural network) 模型(这个要重复尝试,不一定一次就能有效)。
  • 注意
    • 第一,解决high bias和high variance的方法是不同的。如果算法存在高偏差问题,准备更多训练数据用处不大。实际应用中通过Train set error和Dev set error判断是否出现了high bias或者high variance,然后再选择针对性的方法解决问题。
    • 第二,Bias和Variance的折中tradeoff。传统机器学习算法中,Bias和Variance通常是对立的,减小Bias会增加Variance,减小Variance会增加Bias。而在现在的深度学习中,通过使用更复杂的神经网络和海量的训练样本,一般能够同时有效减小Bias和Variance。这也是深度学习之所以如此强大的原因之一。

1.4 正则化(Regularization)

深度学习可能存在过拟合问题——高方差,有两个解决方法:一个是正则化;另一个是准备更多的数据(这是非常可靠的方法,但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高)。

  • Logistic regression(逻辑回归)
    • 采用 L 2 L_2 L2 regularization
      其表达式为:
      J ( w , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) + λ 2 m ∣ ∣ w ∣ ∣ 2 2 其中 ∣ ∣ w ∣ ∣ 2 2 = ∑ j = 1 n x w j 2 = w T w \begin{array}{l}J(w,b)=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||_2^2\\ \text{其中}||w||_2^2=\sum_{j=1}^{n_x}w_j^2=w^Tw\end{array} J(w,b)=m1i=1mL(y^(i),y(i))+2mλw22其中w22=j=1nxwj2=wTw

      为什么只对w进行正则化而不对b进行正则化呢?
      其实也可以对b进行正则化。但是一般w的维度很大,而b只是一个常数。相比较来说,参数的变化程度上基本由w决定,改变b值对整体模型参数的变化影响较小。所以,一般为了简便,就忽略对b的正则化了。

    • 采用 L 1 L_1 L1 regularization
      J ( w , b ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) + λ 2 m ∣ ∣ w ∣ ∣ 1 ∣ ∣ w ∣ ∣ 1 = ∑ j = 1 n x ∣ w j ∣ \begin{array}{l}J(w,b)=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||_1\\ ||w||_1=\sum_{j=1}^{n_x}|w_j|\end{array} J(w,b)=m1i=1mL(y^(i),y(i))+2mλw1w1=j=1nxwj
      L 2 L_2 L2 regularization相比, L 1 L_1 L1 regularization得到的w更加稀疏,即很多 w w w为零值。其优点是节约存储空间,因为大部分 w w w为0。

      实际上 L 1 L_1 L1 regularization在解决high variance方面比 L 2 L_2 L2 regularization并不更具优势。而且, L 1 L_1 L1的在微分求导方面比较复杂( L 1 L_1 L1范式有的时候会改用 L 21 L_{21} L21范式)。所以,一般 L 2 L_2 L2 regularization更加常用。

    • L 1 L_1 L1 L 2 L_2 L2 regularization中的 λ \lambda λ就是正则化参数(超参数的一种)。可以设置 λ \lambda λ为不同的值,在Dev set中进行验证,选择最佳的 λ \lambda λ

      在python中,由于lambda是保留字,所以为了避免冲突,我们使用lambd来表示 λ \lambda λ

  • 深度学习
    • L 2 L_2 L2 regularization:
      表达式为:
      J ( w [ 1 ] , b [ 1 ] , ⋯   , w [ L ] , b [ L ] ) = 1 m ∑ i = 1 m L ( y ^ ( i ) , y ( i ) ) + λ 2 m ∑ l = 1 L ∣ ∣ w [ l ] ∣ ∣ 2 其中 ∣ ∣ w [ l ] ∣ ∣ 2 = ∑ i = 1 n [ l ] ∑ j = 1 n [ l − 1 ] ( w i j [ l ] ) 2 \begin{array}{l}J(w^{[1]},b^{[1]},\cdots,w^{[L]},b^{[L]})=\frac1m\sum_{i=1}^mL(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum_{l=1}^L||w^{[l]}||^2\\ \text{其中}||w^{[l]}||^2=\sum_{i=1}^{n^{[l]}}\sum_{j=1}^{n^{[l-1]}}(w_{ij}^{[l]})^2\end{array} J(w[1],b[1],,w[L],b[L])=m1i=1mL(y^(i),y(i))+2mλl=1Lw[l]2其中w[l]2=i=1n[l]j=1n[l1](wij[l])2

      通常,我们把 ∣ ∣ w [ l ] ∣ ∣ 2 ||w^{[l]}||^2 w[l]2称为Frobenius范数,记为 ∣ ∣ w [ l ] ∣ ∣ F 2 ||w^{[l]}||_F^2 w[l]F2。一个矩阵的Frobenius范数就是计算所有元素平方和再开方,如下所示:
      ∣ ∣ A ∣ ∣ F = ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 ||A||_F=\sqrt {\sum_{i=1}^m\sum_{j=1}^n|a_{ij}|^2} AF=i=1mj=1naij2

    • 梯度下降算法中的 d w [ l ] dw^{[l]} dw[l]计算表达式需要做如下修改:
      d w [ l ] = d w b e f o r e [ l ] + λ m w [ l ] w [ l ] : = w [ l ] − α ⋅ d w [ l ] \begin{array}{l}dw^{[l]}=dw^{[l]}_{before}+\frac{\lambda}{m}w^{[l]}\\ w^{[l]}:=w^{[l]}-\alpha\cdot dw^{[l]}\end{array} dw[l]=dwbefore[l]+mλw[l]w[l]:=w[l]αdw[l]

    • L 2 L_2 L2 regularization也被称做 w e i g h t    d e c a y weight\; decay weightdecay(权重衰减)
      如下公式,由于加上了正则项, d w [ l ] dw^{[l]} dw[l]有个增量,在更新 w [ l ] w^{[l]} w[l]的时候,会多减去这个增量,使得 w [ l ] w^{[l]} w[l]比没有正则项的值要小一些。不断迭代更新,不断地减小:
      w [ l ] : = w [ l ] − α ⋅ d w [ l ] = w ∣ l ∣ − α ⋅ ( d w b e f o r e [ l ] + λ m w [ l ] ) = ( 1 − α λ m ) w [ l ] − α ⋅ d w b e f o r e [ l ] \begin{aligned} w^{[l]} &:=w^{[l]}-\alpha \cdot d w^{[l]} \\ &=w^{|l|}-\alpha \cdot\left(d w_{b e f o r e}^{[l]}+\frac{\lambda}{m} w^{[l]}\right) \\ &=\left(1-\alpha \frac{\lambda}{m}\right) w^{[l]}-\alpha \cdot d w_{b e f o r e}^{[l]} \end{aligned} w[l]:=w[l]αdw[l]=wlα(dwbefore[l]+mλw[l])=(1αmλ)w[l]αdwbefore[l]
      其中, ( 1 − α λ m ) < 1 (1-\alpha\frac{\lambda}{m})<1 (1αmλ)<1


1.5 为什么正则化有利于预防过拟合呢?(Why regularization reduces overfitting?)

可以从三个方面来理解:为什么正则化有利于预防过拟合:

  1. 从上一讲最后一小节的公式进行理解:
    w [ l ] : = w [ l ] − α ⋅ d w [ l ] = w ∣ l ∣ − α ⋅ ( d w b e f o r e [ l ] + λ m w [ l ] ) = ( 1 − α λ m ) w [ l ] − α ⋅ d w b e f o r e [ l ] \begin{aligned} w^{[l]} &:=w^{[l]}-\alpha \cdot d w^{[l]} \\ &=w^{|l|}-\alpha \cdot\left(d w_{b e f o r e}^{[l]}+\frac{\lambda}{m} w^{[l]}\right) \\ &=\left(1-\alpha \frac{\lambda}{m}\right) w^{[l]}-\alpha \cdot d w_{b e f o r e}^{[l]} \end{aligned} w[l]:=w[l]αdw[l]=wlα(dwbefore[l]+mλw[l])=(1αmλ)w[l]αdwbefore[l]

    • 其中, ( 1 − α λ m ) < 1 (1-\alpha\frac{\lambda}{m})<1 (1αmλ)<1。当 λ \lambda λ较大时, w [ l ] ≈ 0 w^{[l]}\approx0 w[l]0,意味着该神经网络模型中的某些神经元实际的作用很小,可以忽略。
      从效果上来看,就是将原本过于复杂的神经网络模型就变得不那么复杂了,而变得非常简单化了。
  2. 从如下例子进行理解,如下图:
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第5张图片
    上图从左到右,分别表示:欠拟合,恰好拟合,过拟合三种情况。

    • 假如我们选择了非常复杂的神经网络模型,在未使用正则化的情况下,得到的 分类超平面(不一定是二维) 可能是类似上图右侧的过拟合。
    • λ \lambda λ很大时, w [ l ] ≈ 0 w^{[l]}\approx0 w[l]0 w [ l ] w^{[l]} w[l]近似为零,意味着该神经网络模型中的某些神经元实际的作用很小,可以忽略。从效果上来看,其实是将某些神经元给忽略掉了,类似于上图中左边的线性回归。
      如下图所示,整个简化的神经网络模型变成了一个逻辑回归模型,问题就从high variance变成了high bias了。
      在这里插入图片描述
    • 当选择合适大小的 λ \lambda λ值,就能够同时避免high bias和high variance,得到最佳模型。
  3. 从激活函数的角度来看:
    假设激活函数是 t a n h tanh tanh函数。 t a n h tanh tanh函数的特点是在 z z z接近零的区域,函数近似是线性的。
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第6张图片

    ∣ z ∣ |z| z很大的时候,函数非线性且变化缓慢。当使用正则化:

    • λ \lambda λ较大,即对权重 w [ l ] w^{[l]} w[l]的惩罚较大, w [ l ] w^{[l]} w[l]的值相较无 λ \lambda λ时,变得更小。
    • 因为 z [ l ] = w [ l ] a [ l ] + b [ l ] z^{[l]}=w^{[l]}a^{[l]}+b^{[l]} z[l]=w[l]a[l]+b[l]。当 w [ l ] w^{[l]} w[l]减小的时候, z [ l ] z^{[l]} z[l]也会减小。则此时的 z [ l ] z^{[l]} z[l]分布在tanh函数的近似线性区域。那么这个神经元起的作用就相当于是linear regression。
    • 如果每个神经元对应的权重 w [ l ] w^{[l]} w[l]都比较小,那么整个神经网络模型相当于是多个linear regression的组合,即可看成一个linear network。得到的分类超平面就会比较简单,不会出现过拟合现象。

1.6 dropout 正则化(Dropout Regularization)

除了上面章节说的,利用正则化进行预防过拟合外,还有另外一种防止过拟合的有效方法:Dropout。

  1. Dropout出现的原因
    训练深度神经网络的时候,总是会遇到两大缺点:
    • 容易过拟合
    • 费时
  2. 什么是Dropout
    Dropout是指在深度学习网络的训练过程中,对于每层的神经元,按照一定的概率将其暂时从网络中丢弃。也就是说,每次训练时,每一层都有部分神经元不工作,起到简化复杂网络模型的效果,从而避免发生过拟合
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第7张图片
    如上图所示,让某个神经元的激活值以一定的概率 p p p停止工作,这样可以使模型泛化性更强。
    接下来介绍一种常用的方法: I n v e r t e d    d r o p o u t \color{red}Inverted\; dropout Inverteddropout
  3. Dropout工作流程
    假设我们要训练一个神经网络,如下图:
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第8张图片
    输入是 x x x输出是 y y y,正常的流程是:我们首先把 x x x通过网络前向传播,然后把误差反向传播以决定如何更新参数让网络进行学习。使用Dropout之后,过程变成如下:
    • 首先随机(临时)删掉网络中一半的隐藏神经元,输入输出神经元保持不变(下图中虚线为部分临时被删除的神经元)
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第9张图片
    • 把输入 x x x通过修改后的网络前向传播,然后把得到的损失结果通过修改的网络反向传播。训练样本执行完这个过程后,按照随机梯度下降法更新对应的参数 ( w , b ) (w,b) (wb)
    • 继续重复这一过程:
      • 恢复被删掉的神经元(此时被删除的神经元保持原样,而没有被删除的神经元已经有所更新)
      • 从隐藏层神经元中随机选择一个keep_pro比例的子集临时删除掉(备份被删除神经元的参数)。
      • 对训练样本,先前向传播然后反向传播损失并根据随机梯度下降法更新参数 ( w , b ) (w,b) (wb)(没有被删除的那一部分参数得到更新,删除的神经元参数保持被删除前的结果)。
    • 直到达到停止条件。
  4. Dropout的数学形式
    • 在训练模型阶段
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第10张图片
      • 没有Dropout的网络计算公式:
        z i ( l + 1 ) = w i ( l + 1 ) y l + b i ( l + 1 ) y i ( l + 1 ) = f ( z i ( l + 1 ) ) \begin{array}{l} z_{i}^{(l+1)}=\mathbf{w}_{i}^{(l+1)} \mathbf{y}^{l}+b_{i}^{(l+1)} \\ y_{i}^{(l+1)}=f\left(z_{i}^{(l+1)}\right) \end{array} zi(l+1)=wi(l+1)yl+bi(l+1)yi(l+1)=f(zi(l+1))
      • 采用Dropout的网络计算公式:
        r j ( l ) ∼ Bernulli ⁡ ( p ) y ~ ( l ) = r ( l ) ∗ y ( l ) z i ( l + 1 ) = w i ( l + 1 ) y ~ l + b i ( l + 1 ) y i ( l + 1 ) = f ( z i ( l + 1 ) ) \begin{aligned} r_{j}^{(l)} & \sim \operatorname{Bernulli}(p) \\ \widetilde{\mathbf{y}}^{(l)} &=\mathbf{r}^{(l)} * \mathbf{y}^{(l)} \\ z_{i}^{(l+1)} &=\mathbf{w}_{i}^{(l+1)} \widetilde{\mathbf{y}}^{l}+b_{i}^{(l+1)} \\ y_{i}^{(l+1)} &=f\left(z_{i}^{(l+1)}\right) \end{aligned} rj(l)y (l)zi(l+1)yi(l+1)Bernulli(p)=r(l)y(l)=wi(l+1)y l+bi(l+1)=f(zi(l+1))
        其中Bernoulli函数是为了生成概率 r r r向量,也就是随机生成一个 0 ( F a l s e ) , 1 ( T r u e ) 0(False),1(True) 0(False),1(True)的向量。
      • 注 意 \color{red}注意 : 经过上面屏蔽掉某些神经元,使其激活值为 0 0 0以后,我们还需要对向量进行缩放,也就是乘以 1 / ( 1 − p ) 1/(1-p) 1/(1p)。如果你在训练的时候,经过置 0 0 0后,没有对进行缩放(rescale),那么在测试的时候,就需要对权重进行缩放,操作如下。
    • 在测试模型阶段
      如果在训练时,没有乘以概率 p p p;预测模型的时候,每一个神经单元的权重参数要乘以概率 p p p
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第11张图片
      即: W t e s t ( l ) = p W ( l ) \mathbf{W}^{(l)}_{test} = p\mathbf{W}^{(l)} Wtest(l)=pW(l)
  5. Python语言描述
    • 假设对于第 l l l层神经元,设定保留神经元比例概率keep_prob=0.8,即该层有20%的神经元停止工作。 d l dl dl为dropout向量,设置 d l dl dl为随机vector,其中80%的元素为1,20%的元素为0。在python中可以使用如下语句生成dropout vector:
      dl = np.random.rand(al.shape[0],al.shape[1])
    • 然后,第 l l l层经过dropout,随机删减20%的神经元,只保留80%的神经元,其输出为:
      al = np.multiply(al,dl)
    • 最后,还要对alal进行scale up处理,即:
      al /= keep_prob

      以上就是Inverted dropout的方法。之所以要对 a l al al进行scale up是为了保证在经过dropout后, a l al al作为下一层神经元的输入值尽量保持不变。假设第 l l l层有50个神经元,经过dropout后,有10个神经元停止工作,这样只有40神经元有作用。那么得到的 a l a_l al只相当于原来的80%。scale up后,能够尽可能保持 a l a_l al的期望值相比之前没有大的变化。

    • 注 意 \color{red}注意
      • Inverted dropout的另外一个好处就是在对该dropout后的神经网络进行测试时能够减少scaling问题。因为在训练时,使用scale up保证alal的期望值没有大的变化,测试时就不需要再对样本数据进行类似的尺度伸缩操作了。
      • 使用dropout训练结束后(如果做了scale up),在测试和实际应用模型时,不需要进行dropout和随机删减神经元,所有的神经元都在工作。

1.7 理解 dropout(Understanding Dropout)

  1. 为什么dropout可以避免过拟合呢?
    • 从机器学习的角度
      Dropout通过每次迭代训练时,随机选择不同的神经元,相当于每次都在不同的神经网络上进行训练,类似机器学习中Bagging的方法(三个臭皮匠,赛过诸葛亮),能够防止过拟合。
    • 从权重 w w w的角度
      对于某个神经元来说,某次训练时,它的某些输入在dropout的作用被过滤了。而在下一次训练时,又有不同的某些输入被过滤。经过多次训练后,某些输入被过滤,某些输入被保留。
      这样,该神经元就不会受某个输入非常大的影响,影响被均匀化了。也就是说,对应的权重 w w w不会很大。这从从效果上来说,与L2 regularization是类似的,都是对权重 w w w进行“惩罚”,减小了 w w w的值。
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第12张图片
    • 从神经元之间的复杂角度
      因为dropout程序导致两个神经元不一定每次都在一个dropout网络中出现。迫使网络去学习更加鲁棒的特征 ,这些特征在其它的神经元的随机子集中也存在。使神经网络更加能学习到与其他神经元之间的更加健壮robust的特征。
  2. 使用dropout的时,需要注意:
    • 不同隐藏层的dropout系数keep_prob可以不同。一般来说,神经元越多的隐藏层,keep_out可以设置得小一些.,例如0.5;神经元越少的隐藏层,keep_out可以设置的大一些,例如0.8,设置是1。越容易出现overfitting的隐藏层,其keep_prob就设置的相对小一些。没有准确固定的做法,通常可以根据validation进行选择。
    • Dropout在电脑视觉CV领域应用比较广泛,因为输入层维度较大,而且没有足够多的样本数量。值得注意的是dropout是一种regularization技巧,用来防止过拟合的,最好只在需要regularization的时候使用dropout。
    • 使用dropout的时候,可以通过绘制cost function来进行debug,看看dropout是否正确执行。一般做法是,先将所有层的keep_prob全设置为1,绘制cost function,即涵盖所有神经元,看J是否单调下降。然后,在下一次迭代训练时,再将keep_prob设置为其它值。

1.8 其他正则化方法(Other regularization methods)

除了L2 regularization和dropout regularization之外,还有其它减少过拟合的方法。

  1. 增加训练样本数量
    通常成本较高,难以获得额外的训练样本。但是,我们可以对已有的训练样本进行一些处理来“制造”出更多的样本,称为data augmentation。
    • 图片识别中
      可以对已有的图片进行水平翻转、垂直翻转、任意角度旋转、缩放或扩大等等。如下图所示,这些处理都能“制造”出新的训练样本。虽然这些是基于原有样本的,但是对增大训练样本数量还是有很有帮助的,不需要增加额外成本,却能起到防止过拟合的效果。
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第13张图片
    • 数字识别中:
      可以将原有的数字图片进行任意旋转或者扭曲,或者增加一些noise。
      在这里插入图片描述
  2. early stopping
    一个神经网络模型随着迭代训练次数增加,train set error一般是单调减小的,而dev set error 先减小,之后又增大。也就是说训练次数过多时,模型会对训练样本拟合的越来越好,但是对验证集拟合效果逐渐变差,即发生了过拟合。
    • Def:迭代训练次数不是越多越好,可以通过train set error和dev set error随着迭代次数的变化趋势,选择合适的迭代次数,即early stopping。如下图:
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第14张图片
    • 机器学习过程包括几个步骤:
      • 选择算法来优化代价函数 J J J,方法有:梯度下降、MomentumRMSpropAdam等;
      • 选好优化函数后,找工具过拟合,工具有:正则化,扩增数据等。
      • 上面的1和2时可以交替进行,相互独立,互不影响,把它叫做“ 正 交 化 ( o r t h o g o n a l i z a t i o n ) \color{red}正交化(orthogonalization) (orthogonalization)”。
    • early stopping的主要缺点:
      使用early stopping,不能 正 交 化 ( o r t h o g o n a l i z a t i o n ) \color{red}正交化(orthogonalization) (orthogonalization)地处理优化代价函数和找工具防止过拟合。

      Early stopping的做法通过减少得带训练次数来防止过拟合,这样J就不会足够小。也就是说,early stopping将上述两个目标融合在一起,同时优化,但可能没有“分而治之”( 正 交 化 ( o r t h o g o n a l i z a t i o n ) \color{red}正交化(orthogonalization) (orthogonalization))的效果好。

    • L2 regularization可以实现“分而治之”( 正 交 化 ( o r t h o g o n a l i z a t i o n ) \color{red}正交化(orthogonalization) (orthogonalization))的效果:迭代训练足够多,减小 J J J,而且也能有效防止过拟合。而L2 regularization的缺点之一是最优的正则化参数 λ \lambda λ的选择比较复杂。对这一点来说,early stopping比较简单。总的来说,L2 regularization更加常用一些。

1.9 归一化输入(Normalizing inputs)

在训练神经网络时,标准化输入可以提高训练的速度。

  1. 标准化输入
    μ = 1 m ∑ i = 1 m X ( i ) σ 2 = 1 m ∑ i = 1 m ( X ( i ) ) 2 X ′ : = X − μ σ 2 \begin{array}{l}\mu=\frac1m\sum_{i=1}^mX^{(i)}\\ \sigma^2=\frac1m\sum_{i=1}^m(X^{(i)})^2\\ X':=\frac{X-\mu}{\sigma^2}\end{array} μ=m1i=1mX(i)σ2=m1i=1m(X(i))2X:=σ2Xμ
    其中 μ \mu μ是均值, σ \sigma σ是方差, X X X X ′ X' X是输入和归一化后的输入。下图可见:
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第15张图片
    T i p \color{red}Tip Tip:
    由于训练集进行了标准化处理,那么对于测试集或在实际应用时,应该使用同样的 μ \color{red}\mu μ σ 2 \color{red}\sigma^2 σ2对其进行标准化处理。这样保证了训练集合测试集的标准化操作一致
  2. 为什么要进行标准化输入
    主要是为了让所有输入归一化同样的尺度上,方便进行梯度下降算法时能够更快更准确地找到全局最优解。
    假如输入特征是二维的,且 x 1 x_1 x1的范围是[1,1000], x 2 x_2 x2的范围是[0,1]。
    • 不进行标准化处理
      x 1 x_1 x1 x 2 x_2 x2之间分布极不平衡,训练得到的 w 1 w_1 w1 w 2 w_2 w2也会在数量级上差别很大。这样导致的结果是 c o s t    f u n c t i o n cost\;function costfunction w w w b b b的关系可能是一个非常细长的椭圆形碗。对其进行梯度下降算法时,由于 w 1 w_1 w1 w 2 w_2 w2数值差异很大,只能选择很小的学习因子 α \alpha α,避免 J J J振荡过大。一旦 α \alpha α较大,必然发生振荡, J J J不再收敛。如下左图所示。
    • 进行了标准化操作
      x 1 x_1 x1 x 2 x_2 x2分布均匀, w 1 w_1 w1 w 2 w_2 w2数值差别不大,得到的 c o s t    f u n c t i o n cost\;function costfunction w w w b b b的关系是类似圆形碗。对其进行梯度下降算法时, α \alpha α可以选择相对大一些,且 J J J一般不会发生振荡,保证 J J J是收敛的。如下右图所示。
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第16张图片
  3. 输入特征之间的范围较接近
    如果输入特征之间的范围本来就比较接近,那么不进行标准化操作也是没有太大影响的。但是,标准化处理在大多数场合下还是值得推荐的。
    T i p \color{red}Tip Tip:
    再次强调:由于训练集进行了标准化处理,那么对于测试集或在实际应用时,应该使用同样的 μ \color{red}\mu μ σ 2 \color{red}\sigma^2 σ2对其进行标准化处理。这样保证了训练集合测试集的标准化操作一致

1.10 梯度消失/梯度爆炸(Vanishing / Exploding gradients)

在深度神经网络中可能存在这样一个问题:梯度消失和梯度爆炸。意思是:当训练一个 层数非常多的神经网络时,计算得到的梯度随着层数的增加,近似成指数级别的减小或增大。

  • 例子
    假设一个多层的每层只包含两个神经元的深度神经网络模型,如下图所示:
    在这里插入图片描述
    1. 简化处理
      1. 令各层的激活函数为线性函数,即 g ( Z ) = Z g(Z)=Z g(Z)=Z
      2. 令各层常数项b全部为零;
    2. 该网络的预测输出 Y ^ \hat Y Y^为:
      Y ^ = W [ L ] W [ L − 1 ] W [ L − 2 ] ⋯ W [ 3 ] W [ 2 ] W [ 1 ] X \hat Y=W^{[L]}W^{[L-1]}W^{[L-2]}\cdots W^{[3]}W^{[2]}W^{[1]}X Y^=W[L]W[L1]W[L2]W[3]W[2]W[1]X
      • 假设每个权重矩阵 W [ l ] = [ 1.5 0 0 1.5 ] ,    l = 1 , . . . , L − 1 W^{[l]} = \begin{bmatrix} 1.5 & 0 \\0 & 1.5 \\\end{bmatrix},\;l=1,...,L-1 W[l]=[1.5001.5],l=1,...,L1,最后 W [ L ] = [ 1.5    1.5 ] W^{[L]}= [1.5\; 1.5] W[L]=[1.51.5],则:
        Y ^ = W [ L ] [ 1.5 0 0 1.5 ] ( L − 1 ) X \hat Y= W^{[L]}\begin{bmatrix} 1.5 & 0 \\ 0 & 1.5 \\\end{bmatrix}^{(L -1)}X Y^=W[L][1.5001.5](L1)X
        因此, L L L越大, Y ^ \hat Y Y^越大,且呈指数型增长。我们称之为数值爆炸
      • 假设每个权重矩阵 W [ l ] = [ 0.5 0 0 0.5 ] ,    l = 1 , . . . , L − 1 W^{[l]} = \begin{bmatrix} 0.5& 0 \\ 0 & 0.5 \\ \end{bmatrix},\;l=1,...,L-1 W[l]=[0.5000.5],l=1,...,L1,则:
        Y ^ = W [ L ] [ 0.5 0 0 0.5 ] ( L − 1 ) X \hat Y= W^{[L]}\begin{bmatrix} 0.5 & 0 \\ 0 & 0.5 \\\end{bmatrix}^{(L - 1)}X Y^=W[L][0.5000.5](L1)X
        忽略 W [ L ] W^{[L]} W[L],因此每个矩阵都小于1,网络层数 L L L越多, Y ^ \hat Y Y^呈指数型减小。我们称之为数值消失
    3. 结论
      • 如果各层权重 W [ l ] W^{[l]} W[l]都大于 1 1 1或者都小于 1 1 1,那么各层激活函数的输出将随着层数l的增加,呈指数型增大或减小。当层数很大时,出现数值爆炸消失
      • 如果梯度(导数)呈现同样的指数型增大或减小的变化。 L L L非常大时,则梯度会非常大或非常小,引起每次更新的步进长度过大或者过小,使训练过程十分困难。

1.11 神经网络的权重初始化(Weight Initialization for Deep NetworksVanishing / Exploding gradients)

改善梯度消失/梯度爆炸(Vanishing and Exploding gradients)这类问题:

  • 权重 w w w初始化处理:
    • 以单个神经元为例,激活函数为线性函数 l l l层的输入个数为 n n n,其输出为:
      z = w 1 x 1 + w 2 x 2 + ⋯ + w n x n y = a = g ( z ) \begin{array}{l}z=w_1x_1+w_2x_2+\cdots+w_nx_n\\ y= a = g(z)\end{array} z=w1x1+w2x2++wnxny=a=g(z)
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第17张图片
      为了防止 z z z值过大或过小,随着 n n n越大,希望 w i w_i wi越小,因为 z z z w i x i w_i x_i wixi的和,希望每项值更小。因此可以设置 w i = 1 n w_i=\frac{1}{n} wi=n1,其中 n n n表示神经元的输入特征数量。
    • Python语言处理:
      设置 w [ l ] w^{[l]} w[l]层权重
      w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(1/n[l-1]) 
      
      其中 n [ l − 1 ] n^{[l - 1]} n[l1]是第 l − 1 l-1 l1层神经元数量。
  • 不同的激活函数,不同的权重处理方法:
    • 激活函数是tanh:其方差为 1 n \frac1n n1
      w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(1/n[l-1])
      
    • 激活函数是ReLU:其方差为 2 n \frac2n n2
      w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1]) 
      
    • Yoshua Bengio提出了另外一种初始化 w w w的方法,令其方差为 2 n [ l − 1 ] n [ l ] \frac{2}{n^{[l-1]}n^{[l]}} n[l1]n[l]2
      w[l] = np.random.randn(n[l],n[l-1])*np.sqrt(2/n[l-1]*n[l]) 
      
      至于选择哪种初始化方法因人而异,可以根据不同的激活函数选择不同方法。
  • T i p \color{red}Tip Tip:
    如果想添加方差,方差参数则是另一个你需要调整的超级参数,虽然调优该参数能起到一定作用,但考虑到相比调优,其它超级参数的重要性,通常把方差的超参数的优先级放的比较低。

1.12 梯度的数值逼近(Numerical approximation of gradients)

Back Propagation神经网络有一项重要的测试是梯度检查(gradient checking),是检查验证反向传播过程中梯度下降算法是否正确。

  • 求近似梯度值:
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第18张图片
    f ( θ ) f\left( \theta \right) f(θ)为因变量, θ \theta θ为自变量,在 θ \theta θ 右侧,设置一个 θ + ε \theta +\varepsilon θ+ε,在 θ \theta θ左侧,设置 θ − ε \theta -\varepsilon θε。根据积分公式:
    f ′ ( θ ) = f ( θ + ε ) − f ( θ − ε ) 2 ε f'(\theta)=\frac {f\left( \theta + \varepsilon \right) - f(\theta -\varepsilon)}{2\varepsilon} f(θ)=2εf(θ+ε)f(θε)
    其中 ε > 0 \varepsilon > 0 ε>0,且足够小。上式左右两边逼近误差可以达到 O ( ε 2 ) O(\varepsilon^{2}) O(ε2)

1.13 梯度检验(Gradient checking)

梯度检验的核心:
∂ J ∂ θ = lim ⁡ ε → 0 J ( θ + ε ) − J ( θ − ε ) 2 ε \frac{\partial J}{\partial \theta}=\lim _{\varepsilon \rightarrow 0} \frac{J(\theta+\varepsilon)-J(\theta-\varepsilon)}{2 \varepsilon} θJ=ε0lim2εJ(θ+ε)J(θε)

  1. 对于1层神经网络的梯度检验

    1. 对于正向传播
      W [ 1 ] , b [ 1 ] W^{[1]},b^{[1]} W[1],b[1]这些矩阵/向量先"拉长"构造成一维向量,然后将这些一维向量组合起来构成一个更大的一维向量 θ \color{red}\theta θ。则cost function可以写成:
      J ( W [ 1 ] , b [ 1 ] ) = J ( θ ) J(W^{[1]},b^{[1]})=J(\theta) J(W[1],b[1])=J(θ)
    2. 使用导数的定义计算出“gradapprox”:
      1. θ + = θ + ε \theta^{+}=\theta+\varepsilon θ+=θ+ε
      2. θ − = θ − ε \theta^{-}=\theta-\varepsilon θ=θε
      3. J + = J ( θ + ) J^{+}=J\left(\theta^{+}\right) J+=J(θ+)
      4. J − = J ( θ − ) J^{-}=J\left(\theta^{-}\right) J=J(θ)
      5. gradapprox = J + − J − 2 ε \text{gradapprox} =\frac{J^{+}-J^{-}}{2 \varepsilon} gradapprox=2εJ+J
    3. 使用下面的公式计算“gradapprox”和“grad”之间的差值:
      difference = ∥ grad − gradapprox ∥ 2 ∥ grad ∥ 2 + ∥ gradapprox ∥ 2 \text {difference}=\frac{\| \text {grad}-\text {gradapprox} \|_{2}}{\| \text {grad}\left\|_{2}+\right\| \text {gradapprox} \|_{2}} difference=grad2+gradapprox2gradgradapprox2
      当difference小于特定值时,表示算法没有错误。
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第19张图片
  2. 对于多层神经网络的梯度检验
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第20张图片

    1. W [ 1 ] , b [ 1 ] , ⋯   , W [ L ] , b [ L ] W^{[1]},b^{[1]},\cdots,W^{[L]},b^{[L]} W[1],b[1],,W[L],b[L]中矩阵/向量先"拉长"构造成一维向量,然后和同层的向量构成一个更大的向量。然后将这些一维向量组合起来构成一个更大的一维向量 θ = [ θ 1 , . . . θ L ] \color{red}\mathbb\theta = [\theta_1, ...\theta_L] θ=[θ1,...θL]。则cost function可以写成:
      J ( W [ 1 ] , b [ 1 ] , ⋯   , W [ L ] , b [ L ] ) = J ( θ 1 , . . . θ L ) J(W^{[1]},b^{[1]},\cdots,W^{[L]},b^{[L]})=J(\theta_1, ...\theta_L) J(W[1],b[1],,W[L],b[L])=J(θ1,...θL)

    2. 将Back Propagation通过梯度下降算法得到的 d W [ 1 ] , d b [ 1 ] , ⋯   , d W [ L ] , d b [ L ] dW^{[1]},db^{[1]},\cdots,dW^{[L]},db^{[L]} dW[1],db[1],,dW[L],db[L]按照第一步的顺序构造成一个一维向量 d θ = [ d θ 1 , . . . d θ L ] \color{red}d\mathbb\theta = [d\theta_1, ...d\theta_L] dθ=[dθ1,...dθL] d θ d\theta dθ的维度与 θ \theta θ一致。

    3. 利用 J ( θ ) \color{red}J(\theta) J(θ)对每个 θ i \theta_i θi计算近似梯度,其值与反向传播算法得到的 d θ i \color{red}d\theta_i dθi相比较,检查是否一致。对于第 i i i个元素,近似梯度为:
      d θ a p p r o x [ i ] ≈ J ( θ 1 , θ 2 , ⋯   , θ i + ε , ⋯   ) − J ( θ 1 , θ 2 , ⋯   , θ i − ε , ⋯   ) 2 ε d\theta_{approx}[i]\approx \frac{J(\theta_1,\theta_2,\cdots,\theta_i+\varepsilon,\cdots)-J(\theta_1,\theta_2,\cdots,\theta_i-\varepsilon,\cdots)}{2\varepsilon} dθapprox[i]2εJ(θ1,θ2,,θi+ε,)J(θ1,θ2,,θiε,)
      参数 θ \theta θ不再是一个标量,而是一个字典。我们需要实现一个字典转向量和向量转字典的函数,以用于梯度检验算法中。
      吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第21张图片

    4. 计算:
      ∣ ∣ d θ a p p r o x − d θ ∣ ∣ 2 ∣ ∣ d θ a p p r o x ∣ ∣ 2 + ∣ ∣ d θ ∣ ∣ 2 \frac{||d\theta_{approx}-d\theta||_2}{||d\theta_{approx}||_2+||d\theta||_2} dθapprox2+dθ2dθapproxdθ2

      • 如果欧氏距离越小,例如 1 0 − 7 10^{-7} 107,甚至更小,则表明 d θ a p p r o x d\theta_{approx} dθapprox d θ d\theta dθ越接近,即反向梯度计算是正确的,没有bugs。
      • 如果欧氏距离较大,例如 1 0 − 5 10^{-5} 105,则表明梯度计算可能出现问题,需要再次检查是否有bugs存在。
      • 如果欧氏距离很大,例如 1 0 − 3 10^{-3} 103,甚至更大,则表明 d θ a p p r o x d\theta_{approx} dθapprox d θ d\theta dθ差别很大,梯度下降计算过程有bugs,需要仔细检查。

1.14 梯度检验应用的注意事项(Gradient Checking Implementation Notes)

在进行梯度检查的过程中有几点需要注意的地方:

  • 不要在整个训练过程中都进行梯度检查,仅仅作为debug使用。
  • 如果梯度检查出现错误,找到对应出错的梯度,检查其推导是否出现错误。
  • 注意不要忽略正则化项,计算近似梯度的时候要包括进去。
  • 梯度检查时关闭dropout,检查完毕后再打开dropout。
  • 随机初始化时运行梯度检查,经过一些训练后再进行梯度检查(不常用)。

本章总结

  1. 数据分配,方差和偏差
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第22张图片

    • 上图左边,经典机器学习和深度学习模型所需要的样本数有非常大的差别,深度学习的样本数是经典 ML 的成千上万倍。因 此训练集、开发集和测试集的分配也有很大的区别,当然我们假设这些不同的数据集都服从同分布。

    • 上图右边,偏差与方差问题同样是机器学习模型中常见的挑战,上图依次展示了由高偏差带来的欠拟合和由高方差带来的过拟合。一般而言,解决高偏差的问题是选择更复杂的网络或不同的神经网络架构,而解决高方差的问题可以添加正则化、减少模型冗余或使用更多的数据进行训练。

      当然,机器学习模型需要注意的问题远不止这些,但在配置我们的 ML 应用中,它们是最基础和最重要的部分。其它如数据预处理、数据归一化、超参数的选择等都在后面的信息图中有所体现。

  2. 正则化
    正则化是解决高方差或模型过拟合的主要手段,过去数年,研究者提出和开发了多种适合机器学习算法的正则化方法,如数据增强、L2 正则化(权重衰减)、L1 正则化、Dropout、Drop Connect、随机池化提前终止等。
    吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第23张图片

    • 上图左列 L 1 L_1 L1 L 2 L_2 L2 正则化也是是机器学习中使用最广泛的正则化方法。 L 1 L_1 L1正则化向目标函数添加正则化项,以减少参数的绝对值总和;而 L 2 L_2 L2 正则化中,添加正则化项的目的在于减少参数平方的总和。根据之前的研究, L 1 L_1 L1 正则化中的很多参数向量是稀疏向量,因为很多模型导致参数趋近于 0,因此它常用于特征选择设置中。此外,参数范数惩罚 L 2 L_2 L2 正则化能让深度学习算法「感知」到具有较高方差的输入 x x x,因此与输出目标的协方差较小(相对增加方差)的特征权重将会收缩。

    • 中间列,上图展示了 Dropout 技术,即暂时丢弃一部分神经元及其连接的方法。随机丢弃神经元可以防止过拟合,同时指数级、高效地连接不同网络架构。一般使用了 Dropout 技术的神经网络会设定一个保留率 p,然后每一个神经元在一个批量的训练中以概率 1-p 随机选择是否去掉。在最后进行推断时所有神经元都需要保留,因而有更高的准确度。

      Bagging 是通过结合多个模型降低泛化误差的技术,主要的做法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。而 Dropout 可以被认为是集成了大量深层神经网络的 Bagging 方法,因此它提供了一种廉价的 Bagging 集成近似方法,能够训练和评估值数据数量的神经网络。

    • 右边列,上图还描述了数据增强与提前终止等正则化方法。数据增强通过向训练数据添加转换或扰动来人工增加训练数据集。数据增强技术如水平或垂直翻转图像、裁剪、色彩变换、扩展和旋转通常应用在视觉表象和图像分类中。而提前终止通常用于防止训练中过度表达的模型泛化性能差。如果迭代次数太少,算法容易欠拟合(方差较小,偏差较大),而迭代次数太多,算法容易过拟合(方差较大,偏差较小)。因此,提前终止通过确定迭代次数解决这个问题。

  3. 最优化-1
    最优化是机器学习模型中非常非常重要的模块,它不仅主导了整个训练过程,同时还决定了最后模型性能的好坏和收敛需要的时长。以下展示了最优化方法需要关注的知识点,包括最优化的预备和具体的最优化方法,以下是第一部分。吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1_第24张图片

    • 最左边,归一化输入数据,而且开发集与测试集归一化的常数(均值与方差)与训练集是相同的。上图也展示了归一化的原因,因为如果特征之间的量级相差太大,那么损失函数的表面就是一张狭长的椭圆形,而梯度下降或最速下降法会因为「锯齿」现象而很难收敛,因此归一化为圆形有助于减少下降方向的震荡。

    • 中间列,梯度消失与梯度爆炸问题也是十分常见的现象。「梯度消失」指的是随着网络深度增加,参数的梯度范数指数式减小的现象。梯度很小,意味着参数的变化很缓慢,从而使得学习过程停滞。梯度爆炸指神经网络训练过程中大的误差梯度不断累积,导致模型权重出现很大的更新,在极端情况下,权重的值变得非常大以至于出现 NaN 值。

    • 右边列,梯度检验现在可能用的比较少,因为我们在 TensorFlow 或其它框架上执行最优化算法只需要调用优化器就行。梯度检验一般是使用数值的方法计算近似的导数并传播,因此它能检验我们基于解析式算出来的梯度是否正确。

你可能感兴趣的:(吴恩达-深度学习笔记,神经网络,深度学习,机器学习)