ScarfNet 多尺度融合与特征重分配增强目标检测 论文简记

  • paper:《ScarfNet: Multi-scale Features with Deeply Fused and Redistributed Semantics
    for Enhanced Object Detection》
  • arxiv: https://arxiv.org/abs/1908.00328
  • github: 暂时没找到

简介

首先paper提出bottom-level特征限制目标检测性能,提出2点来解决问题:

  1. 使用双向LSTM融合上下文多尺度特征
  2. channel-wise 注意力模型重分配每个尺度的特征

模型

ScarfNet 多尺度融合与特征重分配增强目标检测 论文简记_第1张图片
ScarfNet结构网络结构,主体结构借鉴RetinaNet中的FPN,关键是加入尺度结合网络ScNet和注意力重分配网络ArNet。
ScarfNet 多尺度融合与特征重分配增强目标检测 论文简记_第2张图片
ScNet:利用双向LSTM融合四个不同尺度分支的特征,这样做将手工的特征连接编程基于权重自动学习重要特征来融合。
ArNet:注意力模型与其他注意力模型没有什么本质区别,都是通过全局平均池化GAP实现自注意力,然后再旁路连接。
Matching Block:用于上下采样匹配特征尺度,以便能够进行双向LSTM和输出的Concat操作。

实验

ScarfNet 多尺度融合与特征重分配增强目标检测 论文简记_第3张图片

图1、VOC2007检测结果

ScarfNet 多尺度融合与特征重分配增强目标检测 论文简记_第4张图片

图二、COCO检测结果

ScarfNet 多尺度融合与特征重分配增强目标检测 论文简记_第5张图片

图三、消融实验(貌似注意力模型并不提点[^1])

总结

  1. 实验对比算法有点老,速度8.7fps,41.6mAP中规中矩,和近期anchor-free有差距
  2. biLSTM方便加入带有FPN结构的检测网络中(现在FPN基本是标配)

你可能感兴趣的:(目标检测)