论文地址:https://arxiv.org/pdf/1506.01497.pdf
论文代码:
https://github.com/ShaoqingRen/faster_rcnn
https://github.com/rbgirshick/py-faster-rcnn
从RCNN到fast RCNN,再到本文的faster RCNN,目标检测的四个基本步骤(候选区域生成,特征提取,分类,位置精修)终于被统一到一个深度网络框架之内。所有计算没有重复,完全在GPU中完成,大大提高了运行速度。
0、摘要:
引入了RPN(region proposal network),和detection network共享整个图像的卷积特征,RPN被训练生成高质量的区域推荐(region proposal),同时预测物体的bound和objectness scores,之后将RPN+Fast RCNN结合成一个single network,用attention (注意力)机制共享卷积特征,。
1、简介
Faster R-CNN(其中R对应于“Region(区域)” )是基于深度学习R-CNN系列目标检测最好的方法。使用VOC2007+2012训练集训练,VOC2007测试集测试mAP达到73.2%,目标检测的速度可以达到每秒5帧。
技术上将RPN网络和Fast R-CNN网络结合到了一起,将RPN获取到的proposal直接连到ROI pooling层,是一个CNN网络实现端到端目标检测的框架。
faster RCNN可以简单地看做“区域生成网络+fast RCNN“的系统,用区域生成网络代替fast RCNN中的Selective Search方法。本篇论文着重解决了这个系统中的三个问题:
1. 如何设计区域生成网络
2. 如何训练区域生成网络
3. 如何让区域生成网络和fast RCNN网络共享特征提取网络
2、R-CNN系列方法对比
3、Fast R-CNN目标检测系统框图
4、Faster R-CNN
卷积阶段
RPN的核心思想是使用卷积神经网络直接产生region proposal,使用的方法本质上就是滑动窗口。RPN网络结构图如上所示(ZF模型:256维),假设给定600*1000的输入图像,经过卷积操作得到最后一层的卷积feature map(大小约为40*60),最后一层卷积层共有256个feature map。
Region ProposalNetwork(RPN)
在这个特征图上使用3*3的卷积核(滑动窗口)与特征图进行卷积,那么这个3*3的区域卷积后可以获得一个256维的特征向量。因为这个3*3的区域上,每一个特征图上得到一个1维向量,256个特性图即可得到256维特征向量。
3*3滑窗中心点位置,对应预测输入图像3种尺度(128,256,512),3种长宽比(1:1,1:2,2:1)的regionproposal,这种映射的机制称为anchor,产生了k=9个anchor。即每个3*3区域可以产生9个region proposal。所以对于这个40*60的feature map,总共有约20000(40*60*9)个anchor,也就是预测20000个region proposal。
后边接入到两个全连接层,即cls layer和reglayer分别用于分类和边框回归。clslayer包含2个元素,用于判别目标和非目标的估计概率。reglayer包含4个坐标元素(x,y,w,h),用于确定目标位置。cls:正样本,与真实区域重叠大于0.7,负样本,与真实区域重叠小于0.3。reg:返回区域位置。
最后根据region proposal得分高低,选取前300个region proposal,作为Fast R-CNN的输入进行目标检测。
5、训练4步阶段:
(1)使用在ImageNet上预训练的模型初始化RPN网络参数,微调RPN网络;
(2) 使用(1)中RPN网络提取region proposal训练Fast R-CNN网络,也用ImageNet上预训练的模型初始化该网络参数;(目前两个网络相对独立)
(3) 使用(2)的Fast R-CNN网络重新初始化RPN, 固定卷积层进行微调,微调RPN网络;
(4) 固定(2)中Fast R-CNN的卷积层,使用(3)中RPN提取的region proposal对Fast R-CNN网络进行微调。
基本设想是:在提取好的特征图上,对所有可能的候选框进行判别。由于后续还有位置精修步骤,所以候选框实际比
原始特征提取(上图灰色方框)包含若干层conv+relu,直接套用ImageNet上常见的分类网络即可。本文试验了两种
网络:5层的ZF[3],16层的VGG-16[4]。额外添加一个conv+relu层,输出51*39*256维特征(feature)。
特征可以看做一个尺度51*39的256通道图像,对于该图像的每一个位置,考虑9个可能的候选窗口:三种面积
{128 2 , 256 2 , 512 2 } ×三种比例{1:1,1:2,2:1}。这些候选窗口称为anchors。下图示出51*39个anchor中
心,以及9种anchor示例。
在整个faster RCNN算法中,有三种尺度。
原图尺度:原始输入的大小。不受任何限制,不影响性能。
归一化尺度:输入特征提取网络的大小,在测试时设置,源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。
网络输入尺度:输入特征检测网络的大小,在训练时设置,源码中为224*224。
分类层(cls_score)输出每一个位置上,9个anchor属于前景和背景的概率;窗口回归层(bbox_pred)输出每一个
位置上,9个anchor对应窗口应该平移缩放的参数。
对于每一个位置来说,分类层从256维特征中输出属于前景和背景的概率;窗口回归层从256维特征中输出4个平移缩
放参数。
就局部来说,这两层是全连接网络;就全局来说,由于网络在所有位置(共51*39个)的参数相同,所以实际用尺寸
为1×1的卷积网络实现。
需要注意的是:并没有显式地提取任何候选窗口,完全使用网络自身完成判断和修正。
考察训练集中的每张图像:
a. 对每个标定的真值候选区域,与其重叠比例最大的anchor记为前景样本
b. 对a)剩余的anchor,如果其与某个标定重叠比例大于0.7,记为前景样本;如果其与任意一个标定的重叠比例都小
于0.3,记为背景样本
c. 对a),b)剩余的anchor,弃去不用。
d. 跨越图像边界的anchor弃去不用
同时最小化两种代价:
a. 分类误差
b. 前景样本的窗口位置偏差
具体参看fast RCNN中的“分类与位置调整”段落。
原始特征提取网络使用ImageNet的分类样本初始化,其余新增层随机初始化。
每个mini-batch包含从一张图像中提取的256个anchor,前景背景样本1:1.
前60K迭代,学习率0.001,后20K迭代,学习率0.0001。
momentum设置为0.9,weight decay设置为0.0005。
区域生成网络(RPN)和fast RCNN都需要一个原始特征提取网络(下图灰色方框)。这个网络使用ImageNet的分类
库得到初始参数W0,但要如何精调参数,使其同时满足两方的需求呢?本文讲解了三种方法。
a. 从W0开始,训练RPN。用RPN提取训练集上的候选区域
b. 从W0开始,用候选区域训练Fast RCNN,参数记为W1
c. 从W1开始,训练RPN…
具体操作时,仅执行两次迭代,并在训练时冻结了部分层。论文中的实验使用此方法。
直接在上图结构上训练。在backward计算梯度时,把提取的ROI区域当做固定值看待;在backward更新参数时,来自
RPN和来自Fast RCNN的增量合并输入原始特征提取层。
此方法和前方法效果类似,但能将训练时间减少20%-25%。
直接在上图结构上训练。但在backward计算梯度时,要考虑ROI区域的变化的影响。
与Selective Search方法(黑)相比,当每张图生成的候选区域从2000减少到300时,本文RPN方法(红蓝)的召回
率下降不大。说明RPN方法的目的性更明确。
使用更大的Microsoft COCO库[7]训练,直接在PASCAL VOC上测试,准确率提升6%。说明faster RCNN迁移性良
好,没有over fitting。
Faster R-CNN 是在 Fast R-CNN的基础改进的。Fast R-CNN 主要存在的问题就是 region proposal step 是在CPU跑的,比较耗时。CNN通过GPU加速,那么region proposal step能否也可以通过GPU来加速。
Faster R-CNN 通过提出 Region Proposal Networks (RPNs) 实现了快速提取region proposal 。 RPNs 被设计成有效预测候选区域,在一个比较大的尺度和宽高比范围内。
针对尺度问题,我们采用多个尺度的reference boxes
3 Faster R-CNN 包括两个部分:1)RPNs,深度全卷积网络用于提取候选区域,2) Fast R-CNN 检测器用于物体检测。
the RPNs module tells the Fast R-CNN module where to look
3.1 Region Proposal Networks
RPN 将一幅任意尺寸图像作为输入,输出若干矩形框,每个矩形框有一个 objectness score。为了与Fast R-CNN检测网络共享计算,我们对RPN使用卷积网络, we assume that both nets share a common set of convolutional layers。在我们的实验中, Zeiler and Fergus model(ZF)有5个 shareable convolutional layers,VGG-16 有13个 shareable convolutional layers。
为了生成候选区域,我们在卷积特征层(最后一个共享卷积层的输出)上滑动一个小的网络。这个小的网络将卷积特征层的 n*n领域窗口作为输入,将其映射到一个低维的特征(256-d for ZF and 512-d for VGG, with ReLU [33]following),然后将这个特征输入给两个 sibling 全链接层:a box-regression layer (reg) and a box-classification layer (cls)。这里我们使用 n=3,对应输入图像的尺寸是 171 and 228 pixels for ZF and VGG, respectively。因为对于所有的位置,全链接层是共享的,所以架构可以如下实现:n*n卷积层,接着是两个 sibling 1*1卷积层。
3.1.1 Anchors
对于每个小网络的滑动窗口位置,我们同时预测k个矩形区域,对应不同尺度和宽高比。本文采用3个尺度,3个宽高比,所以每个位置我们检测3*3=9个矩形区域,每个区域计算其是否含有 object( a two-class softmax layer,这是二分类,也可以进行K分类)
Translation-Invariant Anchors
我们这个方法一个很重要的特征就是平移不变性,就是对于同一个object,在图像不同位置出现,同样的 anchors and the functions 可以提出该 object。MultiBox 方法则没有这个特征。
平移不变性也降低了模型的大小。
Multi-Scale Anchors as Regression References
多个不同尺度的Anchors 可以很好(速度快)的解决 object 尺度问题。以前解决尺度问题的计算量比较大。
3.1.2 Loss Function
在训练 RPNs时,我们对每个 anchor 赋予一个二类标记(是不是 object)。对于以下两类 anchor,我们赋予正标记:1)最大IoU 的anchor,2)IoU 超过0.7的 anchor。对所有 ground-truth boxes 的IoU 都小于0.3的anchor 标记为负值。 既不是正值,也不是负值的anchor 对训练函数没有贡献。
我们的损失函数定义如下:
3.1.3 Training RPNs
RPN的训练采用 back-propagation and stochastic gradient descent (SGD), 采用文献【2】中的 “image-centric”的采样策略。
3.2 Sharing Features for RPN and Fast R-CNN
怎么共享RPN and Fast R-CNN 的卷积层,文中讨论了三种方式:
1)Alternating training 交替训练,先训练RPN,然后用RPN得到的候选区域训练Fast R-CNN,得到的Fast R-CNN用于初始化RPN,这样交替训练,本文所有的实验都是采用这种方式。
2) Approximate joint training
这里我们将两个网络融合成一个网络训练,如图2所示。在每个SGD迭代步骤中,前向计算产生候选区域,然后假定这些候选区域固定,用于训练Fast R-CNN。后向传播计算像以前一样,对于共享网络,两个网络的损失被结合起来候选误差传播 。这种方式实现比较简单,但是它忽略了 the derivative w.r.t. the proposal boxes’ coordinates that are also network responses,所以它是近似的,与交替训练相比,该方式的训练时间减少 25-50%。在python 代码中我们给出了这种方法的实现。
(iii) Non-approximate joint training
这种方法主要是将上个方法忽略的矩形框的梯度问题考虑进来。所以是非近似的。本文没有实现改方法。
4-Step Alternating Training
1):使用 ImageNet-pre-trained 模型初始化网络,然后训练RPN
2):使用1)产生的候选区域,训练一个单独的 Fast R-CNN检测网络,该
网络也是使用 ImageNet-pre-trained模型初始化的。
3):使用检测网络初始化RPN训练,固定共享卷积层,只微调与RPN特有
的网络层,这样两个网络就共享了卷积层
4):固定共享卷积层,微调Fast R-CNN特有网络层
可以做更多的交替训练,但是没有提升效果
首先我们需要知道anchor的本质是什么,本质是SPP(spatial pyramid pooling)思想的逆向。而SPP本身是做什么的呢,就是将不同尺寸的输入resize成为相同尺寸的输出。所以SPP的逆向就是,将相同尺寸的输出,倒推得到不同尺寸的输入。
接下来是anchor的窗口尺寸,这个不难理解,三个面积尺寸(128^2,256^2,512^2),然后在每个面积尺寸下,取三种不同的长宽比例(1:1,1:2,2:1).这样一来,我们得到了一共9种面积尺寸各异的anchor。
下面是整个faster RCNN结构的示意图:
利用anchor是从第二列这个位置开始进行处理,这个时候,原始图片已经经过一系列卷积层和池化层以及relu,得到了这里的 feature:51x39x256(256是层数)
在这个特征参数的基础上,通过一个3x3的滑动窗口,在这个51x39的区域上进行滑动,stride=1,padding=2,这样一来,滑动得到的就是51x39个3x3的窗口。
对于每个3x3的窗口,作者就计算这个滑动窗口的中心点所对应的原始图片的中心点。然后作者假定,这个3x3窗口,是从原始图片上通过SPP池化得到的,而这个池化的区域的面积以及比例,就是一个个的anchor。换句话说,对于每个3x3窗口,作者假定它来自9种不同原始区域的池化,但是这些池化在原始图片中的中心点,都完全一样。这个中心点,就是刚才提到的,3x3窗口中心点所对应的原始图片中的中心点。如此一来,在每个窗口位置,我们都可以根据9个不同长宽比例、不同面积的anchor,逆向推导出它所对应的原始图片中的一个区域,这个区域的尺寸以及坐标,都是已知的。而这个区域,就是我们想要的 proposal。所以我们通过滑动窗口和anchor,成功得到了 51x39x9 个原始图片的proposal。接下来,每个proposal我们只输出6个参数:每个 proposal 和 ground truth 进行比较得到的前景概率和背景概率(2个参数)(对应图上的 cls_score);由于每个 proposal 和 ground truth 位置及尺寸上的差异,从 proposal 通过平移放缩得到 ground truth 需要的4个平移放缩参数(对应图上的 bbox_pred)。
所以根据我们刚才的计算,我们一共得到了51 x 39 x 9 = 17900个anchor box。