【论文笔记】R-CNN

论文简介

论文名字:Rich feature hierarchies for accurate object detection and semantic segmentation, CVPR 2014
论文作者:rbg
论文简述:
  • 首次成功的将深度学习应用到目标检测领域,相比于传统的方法,在性能上得到的很大的提升(60%)。
  • 首次引入区域推荐(Region Proposal),物体检测的框架,沿用至今。
不足之处在于:
  • 检测速度太慢(~40s 一张图片)
  • 训练的开销较大

论文思想

所谓的 目标检测(object detection),实质上包含了两层含义:
  • 第一层含义是物体的定位(localization),即找出物体在图像中的哪一个位置
  • 第二层含义是物体的识别(classification),即识别出这是一个什么物体
深度学习(deep learning)在物体的识别上取得了很大的进展(ImageNet classification with deep convolutional neural networks. In NIPS, 2012),但是在物体的定位上,得到的结果一直不是很好。C. Szegedy等人尝试用深度学习去直接回归出物体的位置(Deep neural networks for object detection. In NIPS, 2013),但是效果不是很好,和传统的算法相比(DPM等),并没有体现出improvement.

在这篇深度学习目标检测的开山之作中,作者所argue的一个点就是:既然深度神经网络在物体分类上能够得到很漂亮的结果,而在物体定位上不是很准, 那么为什么不把目标检测问题转化成一个物体分类问题呢

有了这个想法,后面的操作其实是水到渠成的事情。具体的框架见下图:

【论文笔记】R-CNN_第1张图片


  • 首先,输入图像
  • 用某些算法产生出可能存在物体的区域(region proposal),对于每张图大约会有2000个这样的区域
  • 对于每个区域,crop出图像,缩放到一定的尺寸后(227x227),输入到神经网络中
  • 得到特征后,用SVM做物体的分类

操作细节

如何产生Region Proposal

有许多现有的算法可以用来产生Region Proposal(可能存在物体的区域),例如EdgeBox, Selective Search等等,在本篇paper中,作者使用的是selective search,对于每张图片,保留下了2000个region

网络结构

paper中采用了AlexNet来产生一个4096维的特征(feature)

怎么训练

对于神经网络,采用SGD+ mini batch的方式去训练。网络用Image-net pre-trained的网络初始化之后,将最后的分类层重新设置成21分类(VOC有20个类,加上bg)去fine-tune。为了平衡negative和positive的数量,取mini batch的时候保持了它们在一定的比例下。(因为每张图positive的数量特别少)

等AlexNet训练好了之后,用其输出结果进一步训练SVM分类器。(为什么要用SVM而不用Softmax layer?这里似乎没有明说)

选取哪一层做feature

作者对比了不同层的实验,最后得到的结果如下表:
【论文笔记】R-CNN_第2张图片

FT表示fine-tune的意思,从结果中可以看出来,选择fc7层得到的效果是最佳的

更进一步:box regression

作者分析了在检测中出错的原因,发现很大程度上是因为region proposal框得不够准。
【论文笔记】R-CNN_第3张图片
于是作者提出了一个方法,就是在原有框的基础上,增加了box regression的步骤,用于微调框的位置,使得框更加准。上图中的结果也反应了,加入了回归项之后(有BB标记的图),location的精度提高了很多。总体的mAP也上升了4个点。

论文结果

【论文笔记】R-CNN_第4张图片

一图胜前言。在VOC2007的数据集上比传统的DPM方法的结果整整高了24个点!

这也开启了后续一大堆深度学习在目标检测上的应用。


你可能感兴趣的:(目标识别)