深度学习相关参数详解

  • 1x1卷积核
  1. 1x1卷积,又称为网中网(Network in Network)
  2. 降维作用,例如NxNxC的输入,经过1x1xC卷积核之后变为NxNx1,例如GoogleNet
  3. 升维作用,在降维的作用基础上2C个1x1卷积核构成NxNx2C的矩阵
  4. 增加非线性特性,在不损失分辨率的前提下大幅增加非线性特性(利用后接的非线性激活函数),得到深层网络。
  5. 看作FC层 a 1 . . . a 6 a_1...a_6 a1...a6经过一个1x1后得到 b 1 b_1 b1这样
    深度学习相关参数详解_第1张图片
  • 学习率
  1. 决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值
  2. 学习率设置的过小时,收敛过程将变得十分缓慢。而当学习率设置的过大时,**梯度可能会在最小值附近来回震荡,甚至可能无法收敛。
  3. 好的学习率更快地达到loss的最小值,保证收敛的loss值是神经网络的全局最优解

深度学习相关参数详解_第2张图片
4. 初始学习率一般为0.001~0.1,每n个epoch(每n轮)减半.

  • BN(Batch Normalization)
  1. BN层和卷积层,池化层一样都是一个网络层。
  2. 优点:
    2.1 加快训练速度,以较大的学习率来训练网络
    2.2 提高网络的泛化能力(对新的样本的适应能力)
    2.3 打乱样本的顺序,以免同样的样本一直被训练
    2.4 BN层本质上是一个归一化网络层,可以替代局部响应归一化层(LRN层)
  3. 计算,训练BN层
  • 梯度下降优化算法

通俗易懂理解(梯度下降)优化算法:Momentum、AdaGrad、RMSProp、Adam

  • “一般来说,Adam算法真的是首选”——能够比较快速的降低 loss,但是相对后期乏力
  • SGD优化——loss下降相对较慢,但是最终效果不错,阶梯型的学习率适合比较大规模的训练数据
  • Momentum/RMS——阶梯型的学习率适合比较大规模的训练数据

你可能感兴趣的:(车辆检测,车型识别,深度学习)