Feature Pyramid Networks for Object Detection 阅读笔记

Feature Pyramid Networks for Object Detection 阅读笔记

标签(空格分隔): 论文笔记 物体检测


该论文主要提出了top-down的思想,对图像进行进行多尺度物体检测,尝试解决尺度不变性的问题

Feature pyramids(多尺度特征金字塔)在传统的计算机视觉算法中进场被用到,而在深度学习中,都尽量避免使用多尺度相关的算法,因为一旦涉及多尺度,计算量将成倍增加。

在这篇论文中,作者认为在卷积网络中的每一层,就对应一个尺度的特征,然而在目前的网络中,只是用到了最后一层尺度的特征,于是作者提出了Feature Pyramid Network(FPN). FPN结构在进行物体检测时,不光用到了最后卷积层的feature map,同时也将之前层的feature map结合起来。该结构是结合了Faster RCNN。

  1. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost.
  2. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales.

作者给出了目前四种常见利用多尺度信息的方法:

Feature Pyramid Networks for Object Detection 阅读笔记_第1张图片

(a)该方法是现将输入图像进行resize后喂入算法,进行分类和回归,早期的深度学习算法基本上都是这样做的;
(b)这是目前最常见的,将图像送入网络,去最后一层的feature map进行分类回归;
(c)这是利用每一层的feature map进行分类回归最后,进行融合,这种形式代表性的是SSD,但是SSD中,是在基础网络中添加了几个卷积层,然后添加的几个卷积层的feature map进行分类回归;
(d)这是作者提出来的。

这篇论文给出了两个关键的词语bottom-uptop-down
bottom-up:就是底层信息向高层传播,在深度学习中,网络结构是以层级结构进行排布的,图像从输入到输出,信息是由底层到高层传播的,所谓底层信息就是图像的轮廓,纹理等底层的形状信息;所谓高层信息就是图像的类别,物体的关键部位等高层的语义信息,故bottom-up就是网络的前向传播过程。
top-down:就是高层信息往底层传播,这里的信息是每层的fearure map而非梯度

在这里要解释为什么会存在top-down这样的操作?

因为图像需要检测比较小的物体,直接说就是细粒度的问题,这篇论文(Beyond Skip Connections: Top-Down Modulation for Object Detection)给了个说法,它是这样解释的:高层信息往往语义层面的,是粗糙的,对物体的性状描述是不细腻的;而底层信息是对图像的形状描述是精致的,于是在进行微小物体检测时,最好的方法,是将高层的语义信息和底层的形状信息结合起来。

再来说说,作者是怎么个结合的。。

Feature Pyramid Networks for Object Detection 阅读笔记_第2张图片

(1)左边箭头依次朝上是bottom-up, 右边的箭头朝下是top-down的过程
(2)网络传至卷积最后一层之后,进行上采样(caffe 中进行反卷积操作)还原层上一层的尺度,然后 与上一层的feature map相加,如此下去;
(3)作者还提出为了保证top-down过程中,feature map的channel一致,进行了 1×1 的卷积操作

Github:https://github.com/unsky/FPN-caffe
网络可视化:http://ethereon.github.io/netscope/#/editor

你可能感兴趣的:(深度学习与计算机视觉,论文笔记)