物体检测-CVPR16

  • CVPR2016简介

CVPR16关于检测的文章已经出来有一段时间了,今天主要是想把CVPR16年关于检测的一些重要文章进行梳理,所以本文只注重框架,和特点,具体细节后续再补充。今年CVPR也出了不少检测的文章,主要包括:Inside-Outside Net[1],ResNet[2],G-CNN[3],HyperNet[4],LocNet[5],YOLO等。其中从特征改善的方法有[1,2,4],从效率上改善的有[3]和YOLO,从定位精度改善的为[5].下面对这些文章的贡献进行梳理.

          转载请注明出处:http://blog.csdn.net/ben_ben_niao/article/details/52014799

一,inside-outside net

这篇文章主要解决的是小物体检测问题,传统的方法只是将最后一层的输出作为特征,这样小物体在经过多层卷积和pooling后,特征区域已经很小了,所以检测效果有待提高。本文主要是结合前面卷基层的特征来解决小物体检测的问题,并加入RNN来添加context信息。

  • 这篇文章的主要有两点:
  1. inside:将不同featureMap的特征进行concat[文中称为skip-pooling],由于不同featureMap上的感受野不同,从而获取不同的scale的信息,改善对小物体的检测效果。
  2. outside:添加RNN网络,获取context信息。相比传统的Region proposal的方法,只是利用了ROI内的信息,没有用到context信息,
  3. 效果:VOC2012,从73.9%提升到76.4%,RNN部分提升貌似没有给出(有待确认),mAP.在MS coco从19.7%提升到33.1%
  • 流程图:

物体检测-CVPR16_第1张图片物体检测-CVPR16_第2张图片

  • 对于RNN部分,作者按每行(从上到下,从下到上)和每列(从左到右,从右到左),总共四个方向进行RNN。RNN的featureMap排列如下:

物体检测-CVPR16_第3张图片


二,ResNet

何老师的大作,CVPR16最佳论文。通常来讲,网络越深,梯度消失等问题会比较严重,这对网络的训练带来严重的问题,而网络深,特征的抽象能力更强。本文则主要解决这个问题

  • 主要贡献:
  1. 解决深度网络中梯度消失等难以训练的问题,使得网络可以更深,获取更加好的特征,
  2. 将网络扩展到更深,从而获得很好的效果。MS coco获得28%的相对提升,
  • 思路很简单(效果却惊人),如下图:

物体检测-CVPR16_第4张图片


三,Hyper-Net

这篇文章主要也是解决小物体检测的问题,类似上面的第一篇

  • 特点:
    1. 主要还是利用多层featureMap的特征进行组合,来解决小物体问题。
    2. recall较好,效果mAP提升~2%。
    3. 利用了加速策略(先进行卷积从而达到降维)
  • 原理图;

物体检测-CVPR16_第5张图片

  • 加速处理(卷积提到ROI pooling的前面,从而降低维度-进而加速):

物体检测-CVPR16_第6张图片


四.G-CNN

  • 由于传统的检测都是基于region proposal,本文提出:
  1. 基于grid的迭代回归,从而没有proposal的过程。
  2. 速度相比Fast-RCNN提升5倍,但是效果不明显(没细看)。
  • 流程图:

物体检测-CVPR16_第7张图片

  • 更直观的(下图中,左1图网格是有重叠的):

   物体检测-CVPR16_第8张图片

五.LocNet

  • 前面的文章都是从特征网络入手提高精度,这篇文章研究了回归定位时存在的问题,主要特点为:
  1. 研究传统BBox回归,发现回归并没有置信度这一缺点。
  2. 提出新的定位方法,沿X方向和Y方向单独计算一个概率(置信度),从而获得BBOX.是一个迭代方法。
  3. 扩展性强,可以接入其他已有的框架,并且和proposal独立,效果咋IOU=0.5提升~5%,IOU=0.7提升更多为10+%.
  • 首先将检测得到的BBOX增大,然后通过网络算出BBox。直观的看看对提出的定位方法(结果):

物体检测-CVPR16_第9张图片物体检测-CVPR16_第10张图片

  • 从上可以看出,要获得BBOX,作者提出了两种不同的方案,其中共同的核心是计算概率。他的整体BBox的概率计算网络为下图(这一部分loss function见原文)。

物体检测-CVPR16_第11张图片



文献:

[1].Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks

[2].Deep Residual Learning for Image Recognition

[3].G-CNN: an Iterative Grid Based Object Detector

[4].HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

[5].LocNet: Improving Localization Accuracy for Object Detection

你可能感兴趣的:(深度学习-CNN)