深度学习调参经验

做dl也有一段时间了,积累了一些经验,也在网上看到一些别人的经验。 
为了面试,结合知乎上面的问答,我也总结了一下,欢迎大家补充。

知乎 深度学习调参有哪些技巧?

一. 初始化 
有人用normal初始化cnn的参数,最后acc只能到70%多,仅仅改成xavier,acc可以到98%。

二.从理解CNN网络以产生直觉去调参数的角度考虑,应该使用可视化 
可视化(知乎用户 杨军)

1.Visualize Layer Activations 
原则上来说,比较理想的layer activation应该具备sparse和localized的特点。 
如果训练出的模型,用于预测某张图片时,发现在卷积层里的某个feature map的activation matrix可视化以后,基本跟原始输入长得一样,基本就表明出现了一些问题,因为这意味着这个feature map没有学到多少有用的东西。

2.Visualize Layer Weights 
除了可视化隐藏层的activation以外,可视化隐藏层的模型weight矩阵也能帮助我们获得一些insights。

3.Embedding the Hidden Layer Neurons with t-SNE 
这个方法描述起来比较直观,就是通过t-SNE[10]对隐藏层进行降维,然后以降维之后的两维数据分别作为x、y坐标(也可以使用t-SNE将数据降维到三维,将这三维用作x、y、z坐标,进行3d clustering),对数据进行clustering,人工review同一类图片在降维之后的低维空间里是否处于相邻的区域。

三.调参技巧 [知乎用户 Captain Jack]

  1. 刚开始, 先上小规模数据, 模型往大了放, 只要不爆显存, 能用256个filter你就别用128个. 直接奔着过拟合去. 没错, 就是训练过拟合网络, 连测试集验证集这些都可以不用.就是为了看整体训练流程没有错误,假如loss不收敛就要好好反思了。
  2. 观察loss胜于观察准确率 
    准确率虽然是评测指标, 但是训练过程中还是要注意loss的. 你会发现有些情况下, 准确率是突变的, 原来一直是0, 可能保持上千迭代, 然后突然变1.
  3. Learning Rate设置合理 
    • 太大: loss爆炸, 或者nan,或者loss根本不降而且维持较大值,因为有可能就是走过最优点了,每一步都走得太大
    • 太小: 半天loss没反映(但是, LR需要降低的情况也是这样, 这里可视化网络中间结果, 不是weights, 有效果, 俩者可视化结果是不一样的, 太小的话中间结果有点水波纹或者噪点的样子, 因为filter学习太慢的原因, 试过就会知道很明显)
    • 需要进一步降低了: loss在当前LR下一路降了下来, 但是半天不再降了.
    • 如果有个复杂点的任务, 刚开始, 是需要人肉盯着调LR的. 后面熟悉这个任务网络学习的特性后, 可以扔一边跑去了.
    • 如果上面的Loss设计那块你没法合理, 初始情况下容易爆, 先上一个小LR保证不爆, 等loss降下来了, 再慢慢升LR, 之后当然还会慢慢再降LR, 虽然这很蛋疼.
    • LR在可以工作的最大值下往小收一收, 免得ReLU把神经元弄死了. 当然, 我是个心急的人, 总爱设个大点的. 
      4.简短的注意事项: 
      预处理: -mean/std zero-center就够了, PCA, 白化什么的都用不上. 我个人观点, 反正CNN能学习encoder, PCA用不用其实关系不大, 大不了网络里面自己学习出来一个. 
      shuffle, shuffle, shuffle. 
      网络原理的理解最重要, CNN的conv这块, 你得明白sobel算子的边界检测 
      Dropout, Dropout, Dropout(不仅仅可以防止过拟合, 其实这相当于做人力成本最低的Ensemble, 当然, 训练起来会比没有Dropout的要慢一点, 同时网络参数你最好相应加一点, 对, 这会再慢一点) 
      .CNN更加适合训练回答是否的问题, 如果任务比较复杂, 考虑先用分类任务训练一个模型再finetune.无脑用ReLU(CV领域). 
      无脑用3x3.无脑用xavier. 
      LRN一类的, 其实可以不用. 不行可以再拿来试试看.现在一般就是用batch normalization了 
      filter数量2^n. 
      多尺度的图片输入(或者网络内部利用多尺度下的结果)有很好的提升效果. 
      第一层的filter, 数量不要太少. 否则根本学不出来(底层特征很重要). 
      sgd adam 这些选择上, 看你个人选择. 一般对网络不是决定性的. 反正我无脑用sgd + momentum. 
      batch normalization我一直没用, 虽然我知道这个很好, 我不用仅仅是因为我懒. 所以要鼓励使用batch normalization. 
      不要完全相信论文里面的东西. 结构什么的觉得可能有效果, 可以拿去试试. 
      你有95%概率不会使用超过40层的模型 
      .shortcut的联接是有作用的.暴力调参最可取, 毕竟, 自己的生命最重要. 你调完这个模型说不定过两天这模型就扔掉了. 
      机器, 机器, 机器. 
      Google的inception论文, 结构要好好看看. 
      一些传统的方法, 要稍微了解了解. 我自己的程序就用过1x14的手写filter, 写过之后你看看inception里面的1x7, 7x1 就会会心一笑…因为这就是提取横竖条纹的。 
      加data augmentation

知乎匿名用户: 

感觉除了层数和每层隐节点的个数,也没啥好调的。其它参数,近两年论文基本都用同样的参数设定:迭代几十到几百epoch。sgd,mini batch size从几十到几百皆可。步长0.1,可手动收缩,weight decay取0.005,momentum取0.9。dropout加relu。weight用高斯分布初始化,bias全初始化为0。最后记得输入特征和预测目标都做好归一化。做完这些你的神经网络就应该跑出基本靠谱的结果,否则反省一下自己的人品。


深度学习中的技巧:

  • 初始化参数尽量小一些,这样 softmax 的回归输出更加接近均匀分布,使得刚开始网络并不确信数据属于哪一类;另一方面从数值优化上看我们希望我们的参数具有一致的方差(一致的数量级),这样我们的梯度下降法下降也会更快。同时为了使每一层的激励值保持一定的方差,我们在初始化参数(不包括偏置项)的方差可以与输入神经元的平方根成反比
  • 学习率(learning rate)的设置应该随着迭代次数的增加而减小,个人比较喜欢每迭代完一次epoch也就是整个数据过一遍,然后对学习率进行变化,这样能够保证每个样本得到了公平的对待
  • 滑动平均模型,在训练的过程中不断的对参数求滑动平均这样能够更有效的保持稳定性,使其对当前参数更新不敏感。例如加动量项的随机梯度下降法就是在学习率上应用滑动平均模型。
  • 在验证集上微小的提升未必可信,一个常用的准则是增加了30个以上的正确样本,能够比较确信算法有了一定的提升
    深度学习调参经验_第1张图片
  • 如上图所示,不要太相信模型开始的学习速度,这与最终的结果基本没有什么关系。一个低的学习速率往往能得到较好的模型。
  • 在深度学习中,常用的防止过拟合的方法除了正则化,dropout和pooling之外,还有提前停止训练的方法——就是看到我们在验证集的上的正确率开始下降就停止训练。
  • 当激活函数是RELU时,我们在初始化偏置项时,为了避免过多的死亡节点(激活值为0)一般可以初始化为一个较小的正值。
  • 基于随机梯度下降的改进优化算法有很多种,在不熟悉调参的情况,建议使用Adam方法
  • 训练过程不仅要观察训练集和测试集的loss是否下降、正确率是否提高,对于参数以及激活值的分布情况也要及时观察,要有一定的波动。
  • 如果我们设计的网络不work,在训练集的正确率也很低的话,我们可以减小样本数量同时去掉正则化项,然后进行调参,如果正确率还是不高的话,就说明我们设计的网络结果可能有问题。
  • fine-tuning的时候,可以把新加层的学习率调高,重用层的学习率可以设置的相对较低。
  • 在隐藏层的激活函数,tanh往往比sigmoid表现更好。
  • 针对梯度爆炸的情况我们可以使用梯度截断来解决,尤其在RNN中由于存在相同的循环结构,导致相同参数矩阵的连乘,更加容易产生梯度爆炸。当然,使用LSTM和GRU等更加优化的模型往往是更好地选择。
  • 正则化输入,也就是让特征都保持在0均值和1方差。(注意做特征变换时请保持训练集合测试集进行了相同的变化)
  • 梯度检验:当我们的算法在训练出现问题而进行debug时,可以考虑使用近似的数值梯度和计算的梯度作比较检验梯度是否计算正确。
  • 搜索超参数时针对经典的网格搜索方法,这里有两点可以改善的地方:1)不用网格,用随机值,因为这样我们一次实验参数覆盖范围更广,尤其在参数对结果影响级别相差很大的情况下。2)不同数量级的搜索密度是不一样的,不能均分。

卷积神经网络(CNN)中的独有技巧:

  • CNN中将一个大尺寸的卷积核可以分解为多层的小尺寸卷积核或者分成多层的一维卷积。这样能够减少参数增加非线性
  • CNN中的网络设计应该是逐渐减小图像尺寸,同时增加通道数,让空间信息转化为高阶抽象的特征信息。
  • CNN中可以利用Inception方法来提取不同抽象程度的高阶特征,用ResNet的思想来加深网络的层数。
  • CNN处理图像时,常常会对原图进行旋转、裁剪、亮度、色度、饱和度等变化以增大数据集增加鲁棒性。

经常会被问到你用深度学习训练模型时怎么样改善你的结果呢?然后每次都懵逼了,一是自己懂的不多,二是实验的不多,三是记性不行忘记了。所以写这篇博客,记录下别人以及自己的一些经验。

Ilya Sutskever(Hinton的学生)讲述了有关深度学习的见解及实用建议:

获取数据:确保要有高质量的输入/输出数据集,这个数据集要足够大、具有代表性以及拥有相对清楚的标签。缺乏数据集是很难成功的。

预处理:将数据进行集中是非常重要的,也就是要使数据均值为0,从而使每个维度的每次变动为1。有时,当输入的维度随量级排序变化时,最好使用那个维度的log(1+x)。基本上,重要的是要找到一个0值的可信编码以及自然分界的维度。这样做可使学习工作得更好。情况就是这样的,因为权值是通过公式来更新的:wij中的变化 \propto xidL/dyj(w表示从层x到层y的权值,L是损失函数)。如果x的均值很大(例如100),那么权值的更新将会非常大,并且是相互关联的,这使得学习变得低劣而缓慢。保持0均值和较小的方差是成功的关键因素。

批处理:在如今的计算机上每次只执行一个训练样本是很低效的。反之如果进行的是128个例子的批处理,效率将大幅提高,因为其输出量是非常可观的。事实上使用数量级为1的批处理效果不错,这不仅可获得性能的提升同时可降低过度拟合;不过这有可能会被大型批处理超越。但不要使用过大的批处理,因为有可能导致低效和过多过度拟合。所以我的建议是:根据硬件配置选取适合的批处理规模,量力而为会更加高效。

梯度归一化:根据批处理的大小来拆分梯度。这是一个好主意,因为如果对批处理进行倍增(或倍减),无需改变学习率(无论如何,不要太多)。

学习率计划:从一个正常大小的学习率(LR)开始,朝着终点不断缩小。

1LR的典型取值是 0.1,令人惊讶的是,对于大量的神经网络问题来说,0.1是学习率的一个很好的值。通常学习率倾向于更小而非更大。
使用一个 验证集——一个不进行训练的训练集子集,来决定何时降低学习率以及何时停止训练(例如当验证集的错误开始增多的时候)。
学习率计划的实践建议:若发现验证集遭遇瓶颈,不妨将LR除以2(或5),然后继续。最终,LR将会变得非常小,这也到了停止训练的时候了。这样做可以确保在验证性能受到损害的时候,你不会拟合(或过度拟合)训练数据。降低LR是很重要的,通过验证集来控制LR是个正确的做法。

最重要的是要关注学习率。一些研究人员(比如Alex Krizhevsky)使用的方法是,监视更新范数和权值范数之间的比率。比率取值大约为10¯³。如果取值过小,那么学习会变得非常慢;如果取值过大,那么学习将会非常不稳定甚至失败。

权值初始化。关注权值在学习开始时的随机初始化。

如果想偷懒,不妨试试0.02*randn(num_params)。这个范围的值在许多不同的问题上工作得很好。当然,更小(或更大)的值也值得一试。
如果它工作得不好(例如是一个非常规的和/或非常深的神经网络架构),那么需要使用init_scale/sqrt(layer_width)*randn来初始化每个权值矩阵。在这种情况下,init_scale应该设置为0.1或者1,或者类似的值。
对于深度且循环的网络,随机初始化是极其重要的。如果没有处理好,那么它看起来就像没有学习到任何东西。我们知道,一旦条件都设置好了,神经网络就会学习。
一个有趣的故事:多年来,研究人员相信SGD不能训练来自随机初始化的深度神经网络。每次尝试都以失败告终。令人尴尬的是,他们没有成功是因为使用“小的随机权值”来进行初始化,虽然小数值的做法在浅度网络上工作得非常好,但在深度网络上的表现一点也不好。当网络很深时,许多权值矩阵之间会进行乘积,所以不好的结果会被放大。
但如果是浅度网络,SGD可以帮助我们解决该问题。

所以关注初始化是很有必要的。尝试多种不同的初始化,努力就会得到回报。如果网络完全不工作(即没法实施),继续改进随机初始化是正确的选择。

如果正在训练RNN或者LSTM,要对梯度(记得梯度已除以批量大小)范数使用一个硬约束。像15或者5这样的约束在我个人的实验中工作得很好。请将梯度除以批处理大小,再检查一下它的范数是否超过15(或5)。如果超过了,将它缩小到15(或5)。这个小窍门在RNN和LSTM的训练中发挥着巨大作用,不这样做的话,爆炸性的梯度将会导致学习失败,最后不得不使用像1e-6这样微小而无用的学习率。

数值梯度检查:如果没有使用过Theano或者Torch,梯度实现只能亲力亲为了。在实现梯度的时候很容易出错,所以使用数值梯度检查是至关重要的。这样做会让你对自己的代码充满信心。调整超级参数(比如学习率和初始化)是非常有价值的,因此好刀要用在刀刃上。

如果正在使用LSTM同时想在具有大范围依赖的问题上训练它们,那么应该将LSTM遗忘关口的偏差初始化为较大的值。默认状态下,遗忘关口是S型的全部输入,当权值很小时,遗忘关口会被设置为0.5,这只能对部分问题有效。这是对LSTM初始化的一个警示。

数据增加(Data augmentation):使用算法来增加训练实例数量是个有创意的做法。如果是图像,那么应该转换和旋转它们;如果是音频,应该将清晰的部分和所有类型的杂音进行混合处理。数据添加是一门艺术(除非是在处理图像),这需要一定的常识。

dropout:dropout提供了一个简单的方法来提升性能。记得要调整退出率,而在测试时不要忘记关闭dropout,然后对权值求乘积(也就是1-dropout率)。当然,要确保将网络训练得更久一点。不同于普通训练,在进入深入训练之后,验证错误通常会有所增加。dropout网络会随着时间推移而工作得越来越好,所以耐心是关键。

综合(Ensembling)。训练10个神经网络,然后对其预测数据进行平均。该做法虽然简单,但能获得更直接、更可观的性能提升。有人可能会困惑,为什么平均会这么有效?不妨用一个例子来说明:假如两个分类器的错误率为70%,如果其中一个的正确率保持较高,那么平均后的预测会更接近正确结果。这对于可信网络的效果会更加明显,当网络可信时结果是对的,不可信时结果是错的。

(下面几点是上面的简化版)

1:准备数据:务必保证有大量、高质量并且带有干净标签的数据,没有如此的数据,学习是不可能的
2:预处理:这个不多说,就是0均值和1方差化
3:minibatch:建议值128,1最好,但是效率不高,但是千万不要用过大的数值,否则很容易过拟合
4:梯度归一化:其实就是计算出来梯度之后,要除以minibatch的数量。这个不多解释
5:下面主要集中说下学习率
5.1:总的来说是用一个一般的学习率开始,然后逐渐的减小它
5.2:一个建议值是0.1,适用于很多NN的问题,一般倾向于小一点。
5.3:一个对于调度学习率的建议:如果在验证集上性能不再增加就让学习率除以2或者5,然后继续,学习率会一直变得很小,到最后就可以停止训练了。
5.4:很多人用的一个设计学习率的原则就是监测一个比率(每次更新梯度的norm除以当前weight的norm),如果这个比率在10-3附近,如果小于这个值,学习会很慢,如果大于这个值,那么学习很不稳定,由此会带来失败。
6:使用验证集,可以知道什么时候开始降低学习率,和什么时候停止训练。
7:关于对weight初始化的选择的一些建议:
7.1:如果你很懒,直接用0.02*randn(num_params)来初始化,当然别的值你也可以去尝试
7.2:如果上面那个不太好使,那么久依次初始化每一个weight矩阵用init_scale / sqrt(layer_width) * randn,init_scale可以被设置为0.1或者1
7.3:初始化参数对结果的影响至关重要,要引起重视。
7.4:在深度网络中,随机初始化权重,使用SGD的话一般处理的都不好,这是因为初始化的权重太小了。这种情况下对于浅层网络有效,但是当足够深的时候就不行了,因为weight更新的时候,是靠很多weight相乘的,越乘越小,有点类似梯度消失的意思(这句话是我加的)
8:如果训练RNN或者LSTM,务必保证gradient的norm被约束在15或者5(前提还是要先归一化gradient),这一点在RNN和LSTM中很重要。
9:检查下梯度,如果是你自己计算的梯度。
10:如果使用LSTM来解决长时依赖的问题,记得初始化bias的时候要大一点
12:尽可能想办法多的扩增训练数据,如果使用的是图像数据,不妨对图像做一点扭转啊之类的,来扩充数据训练集合。
13:使用dropout
14:评价最终结果的时候,多做几次,然后平均一下他们的结果。


参考文献:https://blog.csdn.net/gdmmzmj/article/details/77145701

                 https://blog.csdn.net/chenzhi1992/article/details/52905569

                 https://blog.csdn.net/h4565445654/article/details/70477979

你可能感兴趣的:(语音识别-深度学习)