多尺度R-CNN(2): Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural

    CNN高层特征具有丰富的语义信息,低层特征具有较高空间分辨率,研究如何融合不同层之间的特征,是物体检测领域热门的方向。近期很多工作通过融合多层来提升检测和分割的性能,按照融合与预测的先后顺序,分类为早融合(Early fusion)和晚融合(Late fusion)。
    早融合: 先融合多层的特征,然后在融合后的特征上训练预测器。这类方法也被称为skip connection。
这里面的代表是ION和HyperNet。本文主要介绍 Inside-Outside Net(ION)的思想细节。

转载请注明文章出处: 多尺度R-CNN论文笔记(2): Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks http://blog.csdn.net/solomon1558/article/details/72824370

1. Abstract

    上下文信息和多尺度表征(Contextual and multi-scale representations)对于提高视觉识别任务非常关键。Inside-Outside Net(ION)利用RoI内部(Inside)和外部(Outside)的信息改进检测性能。使用空间递归数据网络(spatial recurrent neural networks)集成RoI外部的contextual信息;使用skip-connection提取多尺度特征。
     ION将PASCAL VOC 2012 object detection的mAP从 73.9% 提升到 76.4% mAP。在MS COCO dataset上,ION将mAP从 19.7% 提升到33.1%。这篇文章是Cornell大学PhD Sean Bell 2015年的工作,论文发表在CVPR2016上。该算法获得了 MS COCO 2015 Detection 的 Best Student Entry 和 3rd place in total,同年比赛第一由何恺明的ResNet赢得。

2. Methods

    ION是在Fast R-CNN检测模型的基础上改进的,主要有两个创新点:(1) Inside:通过skip pooling提取RoI在不同尺度不同抽象层次的特征;(2) Outside : 通过spatial recurrent neural network(IRNN)提取RoI外部的contextual信息。
    这个工作认为,理解一幅图片,RoI inside 的 image/object information 和 outside 的 global contextual information 同样重要,都不可以丢失。所以作者提出了同时利用这两方面的信息——构造了 Inside-Outside Net(ION)。
    如图-1所示,ION特征/Context融合的阶段是在proposal提取过程之后Fast R-CNN阶段

图-1 Inside-Outside Net(ION)
    其中,inside 部分它们的思想依然是 multi-scale representation,用 conv3, conv4, conv5 等层级 stacked 抽取 features,因为这样对于 small objects 就不会丢失 lower-level layer 的 high resolution information。另一方面,它们在 outside 部分的工作则更 special 一点。它们使用的是 multi-dimensional IRNN,其中 multi-dimensional 的意思是,我们常见的 RNN 最多就是 bi-directional,双向的;但是在一幅平面图里,我们有横纵两个大方向,则一共有4个小方向;而 IRNN 则是用 identity matrix 进行初始化的基于 ReLU activation 的 RNN 的别称。
图-2 Four-directional IRNN architecture
(skip pooling:对proposals在多层特征上做ROI pooling,L2归一化后拼接起来,然后再利用 1x1Conv layer将feature maps resize到512x7x7的大小。
context features with IRNNs:对于一个feature maps,有四个独立的RNN对其进行上下左右四个方向的移动。

总结:

    (1) paper 使用了multi-scale 进行object detection,在浅层Conv层对其feature maps进行roi-pooling, 增强了对small object的detect能力。
    (2)使用了RNN对RoI周围的context的信息建模,增强feature信息,促进后续的分类和回归性能。

Reference

程序媛的日常. girlswhocode. 干货 | MSCOCO 2015 Detection 前三名

你可能感兴趣的:(深度学习,物体检测,Detection,物体检测,多尺度,RNN)