基本图像分类与目标检测网络要点总结

文章目录

  • 图像分类
    • AlexNet(2012)
    • VGG (2014)
    • GoogLeNet(2014)
    • ResNet(2015)
  • 目标检测
    • R-CNN(2014)
    • Faster R-CNN(2015)
    • Faster R-CNN(2016)
    • YOLO
      • V1(2016)
      • V2(2016)
      • V3(2017)
    • SSD(2016)

图像分类

AlexNet(2012)

  • 是深度学习在计算机视觉领域的影响力较大的论文,获得了2012年ImageNet冠军。
  • 深度为7层,基本结构如下图。准确率达到57.1%,top 1-5 达到80.2%。
    基本图像分类与目标检测网络要点总结_第1张图片
  • 使用ReLU,计算简便,缓解Sigmoid中梯度消失的问题。但当学习率较大时易出现dead神经元(落入负半区则永远无法激活),因此学习率设置不能过大。或者可以使用Leaky ReLU替代。
  • 使用LRN,对输出的参数进行归一化。此方法在后续的网络中被认为效果不明显,因此基本弃用。
  • 使用dropout,在全连接层随机使用一般的神经元,属于正则化方法。在使用BN层后可以去掉。
  • 数据增强(Data Argument),使用随机裁剪(256中取224),水平翻转,颜色增强等方法,增加样本数量,减少过拟合。
  • 训练:batch size=128,SGD+momentum方法,learning rate=0.01,weight_decay=0.0005,momentum=0.9。使用0均值、方差为0.01的高斯分布初始化卷积核权值,偏置项为1保证网络输入为正。
  • 预测:输入大小固定为224224,使用256256的四角加中心与其水平翻转共10张图片求平均结果。

VGG (2014)

  • 16-19层网络。重点阐述了深度对于网络效果的影响,后续常作为特征提取基础网络用于其他网络结构。
  • 使用多个小卷积核代替大卷积核,如两个33卷积核的感受野相当于55卷积核。优势包括a)增加网络深度,引入更多非线性层(ReLU)提高网络判别性;b)减少参数数量,减少过拟合。
  • 基本网络结构如下图
    基本图像分类与目标检测网络要点总结_第2张图片
  • 训练:batch size=256,SGD+momentum方法,learning rate=0.01,weight_decay=0.0005,momentum=0.9。前两个FC层使用dropout为0.5。初始化权重取样于高斯分布N(0,0.01),偏置项初始化为0。 裁剪图片时,原始图片的最小边如果过小相当于覆盖了整个图片,失去了裁剪的意义。但也不宜过大,否则得到的图片只含有目标的一小部分,影响判断。
     使用如下方法:
    (1) 固定最小遍的尺寸为256
    (2) 随机从[256,512]的确定范围内进行抽样,这样原始图片尺寸不一,有利于训练,这个方法叫做尺度抖动scale jittering,有利于训练集增强。
    实验证明尺度抖动scale jittering效果较好。
  • 预测:输入大小不固定,且不需要裁剪。将网络最后三层FC层转换为卷积层,第一层转换为
    7x7卷积核大小(当输入为224时最后一层的feature map大小),后两层为1x1卷积核,论文称之为dense evaluation。这让全连接层应用到整个未裁剪的整个原始图像上,得到一个不同位置的得分图,取其中最大者作为最后分类结果。

GoogLeNet(2014)

  • 22层网络。基本结构如下图。
    -基本图像分类与目标检测网络要点总结_第3张图片
  • 核心思想为Inception,基本结构如下图。主要特点有两个,一是用1x1卷积升降维,二是用不同大小的卷积核提取特征后合并。
    基本图像分类与目标检测网络要点总结_第4张图片
    1x1卷积核作用a)增加网络深度和非线性;b)降低特征维度,减少计算复杂性。
    多尺度卷积核融合作用a)不同大小的卷积核可以提取不同大小的特征,使特征更丰富;b)利用稀疏矩阵分解为密集矩阵的特点加快收敛速度。
  • 去掉了FC层,替换为Global Average Pooling(GAP)层。具体方法就是对每一个feature上的所有点做平均,有n个feature就输出n个平均值作为最后的softmax的输入。好处a)对数据在整个feature上作正则化,防止了过拟合;b)不再需要全连接层,减少了整个结构参数的数目(一般全连接层是整个结构中参数最多的层),过拟合的可能性降低;c)不用再关注输入图像的尺寸。相当于将图片的不同部分裁剪结果做平均。
  • 在某些层级上加了分支分类器,输出的loss乘以个系数再加到总的loss上,作者认为可以防止梯度消失问题。但实际作用较小。
  • 注意网络中使用了LRN结构。
  • 训练:
    参考资料:深入理解GoogLeNet结构

ResNet(2015)

  • 当网络层数加深时会发生退化现象。论文提出残差网络克服这个问题。

理论上,对于“随着网络加深,准确率下降”的问题,Resnet提供了两种选择方式,也就是identity mapping和residual mapping,如果网络已经到达最优,继续加深网络,residual mapping将被push为0,只剩下identity mapping,这样理论上网络一直处于最优状态了,网络的性能也就不会随着深度增加而降低了。

  • shortcut connection如下图。
    基本图像分类与目标检测网络要点总结_第5张图片
    具体又分为两种连接方式
    基本图像分类与目标检测网络要点总结_第6张图片
    右侧连接方式被称为bottleneck design,主要用于网络较深时减少参数和运算,出于实用的目的。
    对于经过pooling层后维度和特征图大小不相同的问题,如下图所示(虚线连接处),使用1x1卷积核进行维度变换和特征图大小变换。
    基本图像分类与目标检测网络要点总结_第7张图片
  • 典型结构——ResNet-50和ResNet-101
    具体结构如下图
    基本图像分类与目标检测网络要点总结_第8张图片
  • 在每个卷积层后激活层前使用了BN层。
  • 训练:数据使用了随机裁剪和颜色增强,MSRA方法初始化权值,batch-size=256,learning rate=0.1,weight_decay=0.0005,momentum=0.9。未使用dropout,使用类似VGG的scale jittering。
  • 预测:使用类似AlexNet的10张图片求平均方法和输入不同尺寸图片平均方法。
    参考资料:残差网络ResNet笔记
    ResNet解析

目标检测

R-CNN(2014)

  • two-stage方法,基本检测流程如下图
    基本检测流程
  • 先根据图像提出预测框,即Region Proposal。比较常用的Region Proposal方法有:SelectiveSearch(SS,选择性搜索)、Edge Boxes(EB)。R-CNN中使用SS方法提取2000个候选框。
  • 基础CNN网络选用VGG-16,使用预训练好的分类网络权重进行微调。在微调CNN时,正样本定义为IOU>0.5的样本,其余定义为负样本。
  • 为每一类训练一个SVM分类器进行分类,使用Hard negative mining,选取正负样本比例为1:3。。训练SVM时,只取GT为正样本,负样本定义为IOU<0.3的样本。
  • 使用边框回归(Bouding Box Regression)对RegionProposal进行微调,目的是让结果窗口与目标窗口(Ground Truth)更加吻合,提高mAP。预测长宽方向的平移和放缩共四个参数,用于调整预测框。使用 λ = 1000 \lambda =1000 λ=1000的岭回归进行训练,只对IOU>0.6的样本进行回归。
  • 训练:训练SVM时学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景共128个样本。

Faster R-CNN(2015)

  • 在R-CNN基础上的改进,在检测效果相近的前提下大幅提升了速度。
  • 主要改进
  1. 将全图送入CNN网络提取特征,在特征层内取Region Proposal的框进行后处理,避免了大量的重复计算,从而降低了时间和空间需求。
  2. 将类别判断和边框回归放入网络中同时训练,达到端到端训练的结构,不需要额外储存。
  • 将RP后的不同预测框对应的特征图部分分为MxN部分,每部分进行max pooling,形成相同大小特征输入下一层。基础网络结构如下图。
    基本图像分类与目标检测网络要点总结_第9张图片
  • 将特征图输入multi-task层,基本结构如下图。cls和bbox为两个全连接层。
    基本图像分类与目标检测网络要点总结_第10张图片
  • 训练:使用预训练的分类网络权重初始化对应层,其余随机初始化。每个mini-batch由N张完整图片和R个候选框,实际使用N=2,R=128。候选框正负样本比例为1:3,正样本定义为IOU>0.5的候选框,负样本定义为0.1 参考资料:Fast RCNN算法详解

Faster R-CNN(2016)

  • 使用RPN(Region Proposal Network)代替SS方法,可以理解为RPN+Fast R-CNN的结构。基本结构如下图。
    基本图像分类与目标检测网络要点总结_第11张图片
  • 三个重要尺度:在整个Faster R-CNN算法中,有三种尺度:
  1. 原图尺度:原始输入的大小。不受任何限制,不影响性能。
  2. 归一化尺度:输入特征提取网络的大小,在测试时设置,源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。
  3. 网络输入尺度:输入特征检测网络的大小,在训练时设置,源码中为224*224。
  • RPN为全卷积网络,具体实现如下图。
    基本图像分类与目标检测网络要点总结_第12张图片
    在CNN最后一层特征图中使用3x3卷积核将每个位置的特征转为256-d(ZF-Net)或512-d(VGG-16)向量,送入cls和reg层,分别预测k个锚点对应的预测框是否属于前景(2k个结果)和预测框的微调参数(4k个结果)。锚点包括3个尺寸(128,256,512)和3中长宽比(1:2,1:1,2:1)共9个。
    基本图像分类与目标检测网络要点总结_第13张图片
  • 训练RPN
    每一个mini-batch包含从一张图像中随机提取的256个anchor(注意,不是所有的anchor都用来训练),前景样本和背景样本均取128个,达到正负比例为1:1。如果一个图像中的正样本数小于128,则多用一些负样本以满足有256个Proposal可以用于训练。训练时弃用边界超过图像边界的ancher box。一幅6001000的图像经过VGG16后大约为4060,则此时的anchor数为40609,约为20k个anchor boxes,再去除与边界相交的anchor boxes后,剩下约为6k个anchor boxes。使用非极大值抑制法(NMS,non-maximum suppression)将IoU>0.7的区域全部合并,最后就剩下约2k个anchor boxes。NMS不会影响最终的检测准确率,但是大幅地减少了建议框的数量。NMS之后,我们用建议区域中的top-N个来检测(即排过序后取N个)。学习率=0.001
  • 交替训练使RPN与R-CNN共享权值
  1. 训练RPN,预训练的模型初始化,并端到端微调用于区域建议任务。
  2. 利用第一步的RPN生成的建议框,由Fast R-CNN训练一个单独的检测网络,这个检测网络同样是由ImageNet预训练的模型初始化的,这时候两个网络还没有共享卷积层。
  3. 用检测网络初始化RPN训练,但固定共享的卷积层只微调RPN独有的层,使两个网络共享卷积层了。
  4. 保持共享的卷积层固定,微调Fast R-CNN的fc层。这样,两个网络共享相同的卷积层,构成一个统一的网络。
    参考资料:RCNN系列超详细解析
    R-CNN、Fast R-CNN、Faster R-CNN区别
    基本图像分类与目标检测网络要点总结_第14张图片
使用方法 缺点 改进
R-CNN 1、SS提取RP;2、CNN提取特征;3、SVM分类;4、BB盒回归。 1、 训练步骤繁琐(微调网络+训练SVM+训练bbox);2、 训练、测试均速度慢 ;3、 训练占空间 1、 从DPM HSC的34.3%直接提升到了66%(mAP);2、 引入RP+CNN
Fast R-CNN 1、SS提取RP;2、CNN提取特征;3、softmax分类;4、多任务损失函数边框回归。 1、 依旧用SS提取RP(耗时2-3s,特征提取耗时0.32s);2、 无法满足实时应用,没有真正实现端到端训练测试;3、 利用了GPU,但是区域建议方法是在CPU上实现的。 1、 由66.9%提升到70%;2、 每张图像耗时约为3s。
Faster R-CNN 1、RPN提取RP;2、CNN提取特征;3、softmax分类;4、多任务损失函数边框回归。 1、 还是无法达到实时检测目标;2、 获取region proposal,再对每个proposal分类计算量还是比较大。 1、提高了检测精度和速度;2、 真正实现端到端的目标检测框架;3、 生成建议框仅需约10ms。

YOLO

V1(2016)

  • 是一种one-stage检测方法,将目标检测速度推进到实时检测(>30FPS)。
  • 核心思想是把目标检测看做回归问题,直接从图像中预测种类和位置。具体操作为将输入图像划分为SxS个网(论文中S=7),在每个网格内预测K个anchers,每个包含4个位置参数(xy方向的位置和大小)和1个置信度参数(表示网格内是否有目标),此外预测C类类别置信度,即每个网格预测5K+C个参数。若S=7,K=2,C=20,则共有7x7x(5x2+20)个预测参数。在每个网格预测出结果后根据阈值过滤较低的网格,将剩下的网格经过NMS得到最终结果。

注:由于输出层为全连接层,因此在检测时,YOLO 训练模型只支持与训练图像相同的输入分辨率,即448x448。
虽然每个格子可以预测 B 个 bounding box,但是最终只选择只选择 IOU 最高的 bounding box 作为物体检测输出,即每个格子最多只预测出一个物体。当物体占画面比例较小,如图像中包含畜群或鸟群时,每个格子包含多个物体,但却只能检测出其中一个。这是 YOLO 方法的一个缺陷。

  • 网络结构如下图,借鉴了GoogLeNet分类网络结构。但未使用inception,而是使用1x1卷积层(此处1x1卷积层的存在是为了跨通道信息整合)+3x3卷积层简单替代。
    基本图像分类与目标检测网络要点总结_第15张图片
  • 激活函数使用Leaky ReLU
  • 最终损失函数如下:基本图像分类与目标检测网络要点总结_第16张图片
  • 主要问题
  1. 每个网格只预测两个同类型框,对于靠的很近的物体,还有很小的群体检测效果不好。
  2. 同一类物体出现的新的不常见的长宽比和其他情况时,泛化能力偏弱。
  3. 由于损失函数的问题,定位误差是影响检测效果的主要原因。尤其是大小物体的处理上,还有待加强。

V2(2016)

  • V2相较于V1的改进及效果
    基本图像分类与目标检测网络要点总结_第17张图片
  • 使用BN层,去掉dropout。
  • 由于使用了较高分辨率的输入图片,先在预训练的分类网络基础上微调10个epoch,然后再用于检测网络。
  • 引入Ancher方法。去掉全连接层和一个pooling层,将输入图片大小从448改为416,这样经过x32的下采样得到13x13的特征图,目的是让特征图有中间网格。因为较大的物体通常位于图像中间,故使用一个单独的cell预测。使用ancher,使预测框数量大大增大,例如v1中共有7x7x2=98个预测框,而v2中有13x13x9=1521个。从而提高了召回率,而准确率下降很小。
  • 维度聚类(Dimension Clusters)
    将之前手动选择的9个ancher(参考Faster R-CNN)使用k-means方法进行聚类,得到更精简的5个ancher,为后续提供了便利。
  • 直接位置预测(Direct location prediction)
    预测偏移值无范围限制,会导致初始训练模型不稳定,因此改为预测相对于网格位置的偏移量。将预测值使用Sigmoid函数限定为0-1区间,保证网格预测结果在网格附近。具体方法如下。
    基本图像分类与目标检测网络要点总结_第18张图片
  • 细粒度特征(Fine-Grained Features)
    为提升小物体检测性能,将上一特征层26x26连接到底层特征层(类似ResNet的方法)。26x26x512,特征隔行隔列采样可得到13x13x2048个特征图,然后拼接在原13x13特征图后。
  • 多尺度训练(Multi-Scale Training)
    每训练一定次数(论文为10epoch)后随机在{320,352,…,608}(32的倍数)中选取一个尺寸作为输入尺寸。
  • 在预测时通过调整输入尺寸大小可以在速度和精度之间做平衡。
  • 训练过程:构建了新的网络结构darknet-19,比VGG更轻便,计算量小,精度损失不大。作者使用Darknet-19在标准1000类的ImageNet上训练了160次,用的随机梯度下降法,starting learning rate 为0.1,polynomial rate decay 为4,weight decay为0.0005 ,momentum 为0.9。训练的时候仍然使用了很多常见的数据扩充方法(data augmentation)。初始的224x224训练后,作者把分辨率上调到了448 x 448,然后又训练了10次,学习率调整到了0.001。高分辨率下训练的分类网络在top-1准确率76.5%,top-5准确率93.3%。分类网络训练完后,就该训练检测网络了,作者去掉了原网络最后一个卷积层,转而增加了三个3x3x1024的卷积层(可参考darknet中cfg文件),并且在每一个上述卷积层后面跟一个1x1的卷积层,输出维度是检测所需的数量。对于VOC数据集,预测5种boxes大小,每个box包含5个坐标值和20个类别,所以总共是5x(5+20)= 125个输出维度。同时也添加了转移层(passthrough layer ),从最后那个3x3x512的卷积层连到倒数第二层,使模型有了细粒度特征。作者的检测模型以0.001的初始学习率训练了160次,在60次和90次的时候,学习率减为原来的十分之一。其他的方面,weight decay为0.0005,momentum为0.9,依然使用了类似于Faster-RCNN和SSD的数据扩充(data augmentation)策略。
  • 网络结构改进:v2提出了一种新的分类模型Darknet-19。借鉴了很多其它网络的设计概念.主要使用3x3卷积并在pooling之后channel数加倍(VGG);global average pooling替代全连接做预测分类,并在3x3卷积之间使用1x1卷积压缩特征表示(Network in Network);使用 batch normalization 来提高稳定性,加速收敛,对模型正则化。

参考资料:YOLOv2 论文笔记
从YOLOv1到YOLOv3,目标检测的进化之路

V3(2017)

  • 改进之处:
    多尺度预测 (类FPN)
    更好的基础分类网络(类ResNet)和分类器
  • 分类器-类别预测:
    v3不使用Softmax对每个框进行分类,主要考虑因素有两个:
  1. Softmax使得每个框分配一个类别(score最大的一个),而对于Open Images这种数据集,目标可能有重叠的类别标签,因此Softmax不适用于多标签分类。
  2. Softmax可被独立的多个logistic分类器替代,且准确率不会下降。
    分类损失采用binary cross-entropy loss.
  • 多尺度预测
    每种尺度预测3个box, anchor的设计方式仍然使用聚类,得到9个聚类中心,将其按照大小均分给3个尺度.
    尺度1: 在基础网络之后添加一些卷积层再输出box信息.
    尺度2: 从尺度1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出box信息.相比尺度1变大两倍.
    尺度3: 与尺度2类似,使用了32x32大小的特征图.
  • 基础网络 Darknet-53
    仿ResNet, 与ResNet-101或ResNet-152准确率接近,但速度更快.

参考资料:目标检测网络之 YOLOv3

SSD(2016)

  • one-stage方法,结合YOLO和Faster R-CNN优点。在实时检测网络中效果最好(当时)。
  • 基础网络为VGG-16,在其后添加一些卷积层进行下采样缩小特征图大小。网络结构如下图。
    基本图像分类与目标检测网络要点总结_第19张图片
  • 在不同大小的特征图上使用default box进行预测,并将结果汇总进行NMS处理,最终得到检测结果。思路类似FPN。每一个新添加的层,可以使用一系列的卷积核进行预测。对于一个大小为mxn、p通道的特征层,使用3x3的卷积核进行预测,在某个位置上预测出一个值,该值可以是某一类别的得分,也可以是相对于default bounding boxes的偏移量,并且在图像的每个位置都将产生一个值。最终产生8732个预测框。
  • 数据增强
    SSD训练过程中使用的数据增强对网络性能影响很大,大约有6.7%的mAP提升。(1) 随机剪裁:采样一个片段,使剪裁部分与目标重叠分别为0.1, 0.3, 0.5, 0.7, 0.9,剪裁完resize到固定尺寸。(2) 以0.5的概率随机水平翻转。

你可能感兴趣的:(深度学习相关)