[paper笔记]RFBNet——感受野再优化

RFB-Net——准确快速的物体检测

_思路

1. 突破点

提高实时算法的精准度。

2. 优化的问题

实时算法特征表达能力不强,或者说特征提取器因为不能太深,所以效果不好。

3. 为什么会得以优化

根据人类视觉系统的接受域(感受野?),提出RFB。

4. 依然存在的问题

pass

5. 为什么会存在这些问题

pass

摘要

  1. 目前顶级目标检测算法,得益于DCNN backbones很强的特征表示能力,却又很很高的计算开销。
  2. 有些算法能实时,但是准确率太低。
  3. 本文使用手工机制加强轻量级特征,构建了一个快速准确的检测器。
  4. 受到人类视觉系统的接受域(RF)的启发,我们提出了接受域块(RFB)模块,他把接受域的大小和离心率考虑在内,来加强特征的描述和稳定性。

1 引言

  1. 依据"人类的pRF的大小在视网膜代表图上是一个离心率的函数"。(并不懂)
  2. inception中使用不同分辨率的结构,有点这个意思,但是Inception中每个不同大小的核中在同样的中心采样。
  3. Atrous Spatial Pyramid Pooling(ASPP)来捕获不同尺度的信息,在语义分析中有用,但是这些特征与之前相同的核大小的卷积层的分辨率一致,与雏菊的形状相比的得到的特征不明显。
  4. Deformable CNN试图根据物体的尺度和形状,自适应调整RFs的空间分布。虽然简单的格子很灵活,但是没有考虑RFs的离心率的印象,每个像素的权重是相等的,没有强调最重要的信息。

  1. RFB使用多分支汇聚层(multi-branch pooling),使用不同的kernel大小来应对感受野的不同。
  2. 应用扩大的卷积层控制RF的离心率,最后产生特征表达。
  3. RFB模块很通用。接到MobileNet上也很成功。

3 方法

3.1 再探视觉皮层

pass

3.2 RFB

  1. RFB是一个多分支卷积块。
  2. 前面部分与Inception相同,负责模拟多种尺寸的pRF,后一部分再现了人类视觉系统中pRF尺寸与偏心的关系。

Multi-branch convolution layer: astrous convolution layer.

Dilated pooling or convolution layer:

你可能感兴趣的:(笔记)