AlexNet论文精读

1、paper的贡献:

  • 训练了一个最大的神经网络,然后取得了特别好的结果
  • 实现了GPU上性能很高的一个2D的卷积
  • 网络有一些新的特性能够提升性能,降低模型的训练时间
  • 使用一些方法防止过拟合,使得模型更好
  • 模型具有5个卷积层,3个全连接层,得出深度很重要
    2、数据集
    对ImageNet中的图片没有做任何的预处理只是进行了简单的剪裁。当时计算机视觉都是将特征抽取出来,在之后的工作中基本上就是将原本的文本或者图片放进去不做任何的特征抽取,通过神经网络完成这部分工作。
    3、结构
    AlexNet论文精读_第1张图片
    AlexNet论文精读_第2张图片
    (1)卷积层
    卷积的过程高宽慢慢变小,深度渐渐增加,随着深度的增加,慢慢地将空间信息压缩,知道最后每一个像素能够代表前面一大块的像素,然后再将通道数慢慢增加。慢慢地将空间信息压缩,语义空间信息增加,到最后卷积完成之后,进入全连接层。
    (2)降低过拟合
    • 数据增强

    • dropout
      随机的将一些隐藏层的输出变成0,dropout在全连接层会用到
      (3)Relu非线性激活函数,Relu激活函数计算简单,不需要如sigmoid激活函数那般复杂的求幂运算。另一方面,当使用不同参数初始化方法时,ReLU激活函数使训练模型更加容易。
      (4)正则化、归一化
      (5)overlapping pooling
      (6)训练

    • 使用SGD随机梯度下降来进行训练

    • 批量大小为128

    • momentum是0.9,当优化的表面非常不平滑的时候,冲量使得不要被当下的梯度过多的误导,可以保持一个冲量从过去那个方向沿着一个比较平缓的方向往前走,这样子比较容易陷入到局部最优解。

    • 权重使用均值为0,方差为0.01的高斯随机变量来初始化

    • 每个层使用同样的学习率,从0.01开始,然后呢如果验证误差不往下降了,就手动的将他乘以0.1,就是降低十倍

    • 在Alex之后的很多训练里面,都是做规则性地将学习率往下下降十倍,这是一个非常主流的做法,但是现在很少用了,现在使用更加平滑的曲线来降低学习率,比如果用一个cos的函数比较平缓地往下降。 现在主流的做法是学习率从0开始再慢慢上升,慢慢下降

你可能感兴趣的:(论文,神经网络)