GoogleNet--更深的卷积神经网络

GoogleNet–更深的卷积神经网络(CVPR 2015-Google Inc-Christian Szegedy & Wei Liu)

学习目标–模型结构设计

  1. 多尺度卷积
  2. 1*1卷积降维
  3. 池化保留特征
  4. 中间层输出辅助损失

研究背景、成果和意义

一、背景

  1. ILSVRC-2014
  2. 相关研究包括:
    NIN:(Network in Network)首个采用1*1卷积的卷积神经网络,舍弃全连接层,大大减少网络参数;GAP(全局平均池化)输出
    GoogleNet--更深的卷积神经网络_第1张图片
  3. 赫布理论:(一起激发的神经元连接在一起)
    多尺度Gabor滤波器:提取特征 --S1层采用8种尺度Gabor滤波器进行提取不同尺度特征

二、 成果

ILSVRC-2014 分类冠军、检测冠军、定位亚军
GoogleNet--更深的卷积神经网络_第2张图片
GoogleNet--更深的卷积神经网络_第3张图片

三、意义

  1. 开启多尺度卷积时代
  2. 拉开1*1卷积广泛应用序幕
  3. 为GoogLeNet系列开辟道路

论文结构

  1. 摘要:本文主题提出名为Inception的深度卷积神经网络,在ILSVRC-2014获得分类冠军、检测冠军;模型特点1:Inception特点是提高计算资源利用率,增加网络深度和宽度时,参数少量增加;模型特点2:借鉴Hebbain理论和多尺度处理
  2. Introduction:介绍CNN的成功,商用要求少量参数,命名来自NIN
  3. Relate Work:借鉴NIN的1*1卷积,2007年论文的多尺度滤波器
  4. **The Motivation and High Level Considerations:**提出Inception动机分析
  5. Inception结构详解及演变
  6. ILSVRC参赛的模型—GoogLeNet22层卷积网络模型结构
  7. 训练设置,超参数,数据增强技巧
  8. 分类任务中的设置及结果
  9. 目标检测任务中的设置及结果
  10. 总结 Inception结构的特点

GoogleNet结构(22层)

Inception Module

特点

  1. 多尺度
  2. 3*3 max pooling 增加了特征图数量,且用较少的计算量;其缺点是数据量激增,计算量大
  3. 通过1*1卷积(降维即减少了通道数 )进而减少了网络参数,压缩厚度, 信息融合
    GoogleNet--更深的卷积神经网络_第4张图片
    GoogleNet--更深的卷积神经网络_第5张图片
    GoogleNet--更深的卷积神经网络_第6张图片
    GoogleNet--更深的卷积神经网络_第7张图片

网络结构

  1. 网络结构分成3阶段来分析,第一阶段通过conv-pool-conv-pool将输入图片尺寸224降低8倍到28,即快速降低分辨率;第二阶段:堆叠Inception,达22层;第三阶段:FC层分类输出。
  2. 增加两个辅助损失,缓解梯度消失(中间层特征具有分类能力)
    GoogleNet--更深的卷积神经网络_第8张图片

总结

  1. 5个block: 首先降低分辨率、3组Inception 、分类
  2. 5次分辨率下降:224–112–56–28–14–7
  3. 输出层为1层FC层
    GoogleNet--更深的卷积神经网络_第9张图片

训练技巧

一、辅助损失

在Inception4b和Inception4e增加两个辅助分类层,用于计算辅助损失,达到:
1、增加loss回传
2、充当正则约束,迫使中间层特征也能具备分类能力
GoogleNet--更深的卷积神经网络_第10张图片
GoogleNet--更深的卷积神经网络_第11张图片

二、学习率下降策略

每8个epoch下降4%,即800个epochs,才下降不到100倍

三、数据增强

  1. 尺度扰动:8%-100%
  2. 长宽比:[3/4,4/3]
  3. 亮度、饱和度和对比度

测试技巧

  1. Multi-crop测试(1–>144)
  2. 多模型融合

实验结果及分析

一、分类结果

  1. 模型融合:多模型比单模型精度高
  2. Multi Cros:crop越多,精度越高
    GoogleNet--更深的卷积神经网络_第12张图片

检测结果

模型融合:多模型比单模型精度高
GoogleNet--更深的卷积神经网络_第13张图片

稀疏结构

稀疏定义:数值为0的元素数目远远多于非0元素的数目, 且无规律
**稠密矩阵:**数值非0的元素数目远远多于为0元素的数目, 且无规律
稀疏矩阵的优点是,可分解成密集矩阵计算来加快收敛速度
特征图通道的分解:672个特征图分解为四个部分
a. 1x1 卷积核提取的 128个通道
b. 3x3 卷积核提取的192个通道
c. 5x5 卷积核提取的96个通道
d. 3x3池化提取的256个通道
打破均匀分布,相关性强的特征聚集在一起
GoogleNet--更深的卷积神经网络_第14张图片
GoogleNet--更深的卷积神经网络_第15张图片

论文总结

关键点&创新点

  1. 大量使用1*1,可降低维度,减少计算量,参数是AlexNet的十二分之一
  2. 多尺度卷积核,实现多尺度特征提取
  3. 辅助损失层,增加梯度回传,增加正则,减轻过拟合

启发点

  1. 池化损失空间分辨率,但在定位、检测和人体姿态识别中仍应用。延伸拓展:定位、检测和人体姿态识别这些任务十分注重空间分辨率信息
    Despite concerns that max-pooling layers result in loss of accurate spatial information, the same convolutional network architecture as [9] has also been successfully employed for localization [9, 14], object detection [6, 14, 18, 5] and human pose estimation [19]. (2 Related Work p2)

  2. 增加模型深度和宽度,可有效提升性能,但有2个缺点:容易过拟合,以及计算量过大
    The most straightforward way of improving the performance of deep neural networks is by increasing their size. Bigger size typically means a larger number of parameters, which makes the enlarged network more prone to overfitting.
    The other drawback of uniformly increased network size is the dramatically increased use of computational resources. (3 Motivation p1 p2 p3)

  3. 为节省内存消耗,先将分辨率降低,再堆叠使用Inception module
    For technical reasons (memory efficiency during training), it seemed beneficial to start using Inception modules only at higher layers while keeping the lower layers in traditional convolutional fashion.(4 Architectural Details p5)

  4. 最后一个全连接层,是为了更方便的微调,迁移学习
    we use an extra linear layer. This enables adapting and fine-tuning our networks for other label sets easily.(5 GoogLeNet p3)

  5. 网络中间层特征对于分类也具有判别性
    One interesting insight is that the strong performance of relatively shallower networks on this task suggests that the features produced by the layers in the middle of the network should be very discriminative. (5 GoogLeNet p4)

  6. 学习率下降策略每8个epoch下降4%(loss曲线很平滑)
    fixed learning rate schedule (decreasing the learning rate by 4% every 8 epochs). (6 Training Methodology p1)

  7. 数据增强 a. 尺度扰动:8%-100% b. 长宽比:[3/4,4/3] c. 亮度、饱和度和对比度(光照畸变有效)
    Still, one prescription that was verified to work very well after the competition includes sampling of various sized patches of the image whose size is distributed evenly between 8% and 100% of the image area and whose aspect ratio is chosen randomly between 3/4 and 4/3. Also, we found that the photometric distortions by Andrew Howard [8] were useful to combat overfitting to some extent. (6 Training Methodology p2)

  8. 随机采用差值方法可提升性能(resize时)
    we started to use random interpolation methods (bilinear, area, nearest neighbor and cubic, with equal probability) for resizing relatively late and in conjunction with other hyperparameter changes. (6 Training Methodology p2)

  9. 实际应用中没必要 144crops
    We note that such aggressive cropping may not be necessary in real applications. (7 Classification p5)

你可能感兴趣的:(卷积,深度学习,pytorch)