Recurrent scale approximation for objrct detectiong in CNN

该论文发表在ICCV2017,最初针对人脸多尺度变化检测问题,但在一些一般的场景下也能达到不错的效果(用航天图像测一波)

1.针对问题

CNN天生缺乏处理大尺度变化的情况

2.解决方案

1.采取了尺度估计模型RSA(recurrent scale approximation)解决此问题,一次性计算feature map,并且用这些图来估计其他尺度上的feature map。RSA模型的核心在于递归展开机制(recurrisive rolling out mechanism),即利用比当前尺度大一倍的特征图来估计当前的feature map。
2.设计一个sacle-forecast网络来全局预测潜在的尺度,只计算必要尺度的feature map,避免计算所有金字塔中的所有尺度的feature map
3.提出关键点回溯网络LRN(andmark retracing network),对feature map上预测的关键点进行可信度评价。能够消除RSA产生的累计错误。

3.三种多尺度探测方法

Recurrent scale approximation for objrct detectiong in CNN_第1张图片
(a)单尺度检测器+多尺度输入图像:不同尺度的图片resize不同比例得到固定尺度独立进行一次的detect,召回率取决于原图采样的尺寸是否足够密集,缺点计算量大。这种方式在深度学习流行之前常被使用,但是只针对于一些特定的scale,并且一般使用的是人工特征。
(b)多尺度检测器+单尺度输入图像:原图前传一次然后同时从不同尺度的特征图上检测目标和定位。Faster-RCNN和YOLO均采用这个策略:输入图片是固定尺寸的,会在最后一层使用多个分类器产生对多尺度的proposals。FPN和YOLOv3则加入了多尺度特征的融合策略。这种方法较第一种会快很多,毕竟只需要过一次图片,但是对于较大尺度变化的情况下,这种巨大变化必须由分类器学到,其计算代价不小。
(c)本文方法:每个图只过一次,由RSA单元产生多尺度feature map.考虑到生成不同尺度的特征图是限制检测速度的瓶颈,通过改进特征图的生成来减少计算花费。

4.算法详情

Recurrent scale approximation for objrct detectiong in CNN_第2张图片
首先图片进入第一部分的尺度预测网络(scale-forecast network,如上图(a)),尺度预测网络负责对人脸的尺度做出一个估计预测。然后将人脸尺度的预测结果传给第二部分的循环尺度估计单元recurrent scale approximation(RSA)unit(如上图(b)),循环尺度估计单元能够产生预测的人脸尺度所对应的特征图。
Scale-forecast Network
是ResNet-18的half-channel+尾部的全卷积池化版本。结果是一个有关尺度分箱集合的概率向量,每个尺度

你可能感兴趣的:(目标检测论文笔记)