Light-Head R-CNN 阅读笔记

引言部分:

目前的 object detection 基本基于两种框架,一种是 two-stage 的,是R-CNN一系列的方法;另一种是 one-stage 的,比如YOLO,SSD。虽然 two-stage 的方法比one-stage的方法更准确,但速度慢。作者认为 two-stage 速度慢的原因,two-stage 的方法在本身的一个基础网络上都会附加计算量很大的一个用于 classification+regression 的网络,导致速度变慢。因此,作者为了解决 detection 的速度问题,提出了一种新的 two-stage detector,就是Light-Head R-CNN。速度和准确率都有提升。

Light-Head R-CNN 重点是 head 的结构设计。包括两部分: R-CNN subnet(ROI pooling 之后的network) 和ROI warping。


方法部分:

首先看R-CNN subnet(图中虚线框出来的部分)的设计。这里作者和两个经典网络Faster rcnn(称A)、R-FCN(B)进行了对比,如下图。作者从accuracy 和 speed 两方面进行阐述,说明另两个优缺点。accuracy:A在FC层前,为了减小之后FC的计算量,使用了pooling,但这会对空间位置信息造成伤害;B也在prediction前直接用了pooling。而在speed方面,A 每一个ROI都是独立的经过一个subnet得到结果,会降低整个网络的速度,尤其proposal多的话,影响会更大;B 虽然采用cost-free R-CNN subnet,但是之前需要得到一个非常大的score map。而作者提出的Light-Head R-CNN 只有一个FC层,用作者的话说 makes a good trade-off between the performance and computational speed。

其中有一个问题:这个图上标的R-FCN的channel数有歧义。在图中P^2应该是9,channel数应该是729。图中所标注的3969应该是p=7,是因为作者之后做实验都是用的p=7,但这个图上画的是p=3的样子。这是在arkiv上放的,作者应该会出version2修正下这个图。
Light-Head R-CNN 阅读笔记_第1张图片

在ROI warping 方面,作者又实验发现,在channel数少的feature maps上做ROI pooling,不仅准确率提高,还会节约内存及计算量资源。一举两得。


整体结构:

作者的实验是基于两种setting的,setting “L” :用 Resnet 101 做基础的feature extractor 网络,证明作者算法的performance ; setting "S":用一个类似 Xception的小网络做基础网络,网络结构见下表。这个表里的stage 和 rep我没懂。。。

Light-Head R-CNN 阅读笔记_第2张图片

作者在base model 的最后一个卷积层用 large separable convolution layers获得 channel数少的feature map。结构如下。k在论文方法里设置为15,Cmid在setting L时是256,在setting S时是64,Cout为10*p*p(比R-FCN用的#classes*p*p 小很多)。k很大,感受野增大,因此feature maps效果更好。
Light-Head R-CNN 阅读笔记_第3张图片

R-CNN subnet 和 RPN 的实现细节并不是重点,就不再叙述。

实验部分:

作者的实验是在COCO上做的,有80种物体类别。

为了研究channel 数少的feature map 对ROI warping的影响,作者采用R-FCN作为 baseline,并且还对baseline 进行了少许改进,这里就不赘述,可以看论文的4.2.1。之后在baseline的基础上进行了如下变化:(1)将feature map channels 从 3969 (81 × 7 × 7) 改为 490 (10 × 7 × 7);    (2)因为channel数少了,并不能直接voting得到最终的结果,所以最后加了fc进行prediction。结构如下图。

Light-Head R-CNN 阅读笔记_第4张图片


得到的结果说明performance还可以,虽然feature map channels变少这么多,但performance基本没有多少差别。结果如下表,B1, B2是baseline,B2 是改进过的baseline。
Light-Head R-CNN 阅读笔记_第5张图片

然后作者又做了实验研究large separable convolution的作用(同时也用的channel数更少),如下表。
Light-Head R-CNN 阅读笔记_第6张图片


中间的有些实验就不贴结果了,上一个总的结果。

accuracy:  ms-train指的是训练时采用scale jittering,crop size固定,但是图片的短边可以有不同尺寸。feature pyramid采用不同的尺寸的feature map上都有预测。align指采用ROI align。

Light-Head R-CNN 阅读笔记_第7张图片


speed:

Light-Head R-CNN 阅读笔记_第8张图片




总结来说,在detection做到目前的情况来看,还是要工程能力很强的人才能够继续改进啊!一个好的idea中间的工程量肯定很大很大。。。。

你可能感兴趣的:(Light-Head R-CNN 阅读笔记)