论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION

https://mp.weixin.qq.com/s/d123w9cW-bh3hk6klT54Tg
论文来源:https://arxiv.org/pdf/2202.13115.pdf
指出了one -stage的缺陷:
However, they lack of ability to consider possible relations between image regions.
他们缺乏考虑图像区域之间可能的关系的能力。
目前的One-Stage目标检测器对每个图像区域进行单独处理。当考虑图像大小时,由于较小的感受野导致他们不知道不同的图像区域。它们完全依赖于高质量的局部卷积特征来检测目标。然而,这并不是人类视觉系统的工作方式。人类有一种reasoning能力,能够在获得的知识的帮助下完成视觉任务。许多方法已经被提出来模仿人类的推理能力在目标检测。另一方面,这些方法大多比较复杂,采用Two-Stage检测体系结构。因此,它们不适用于实时应用程序。

在本文中提出了一种将视觉reasoning纳入One-Stage目标检测的新方法。本文将基于Multi-Head Attention的reasoning层整合到Neck的顶部,而不是在Backbone上。通过这种方式,可以通过使用更有意义、更细粒度和更增强的特征映射来提取关于不同图像区域之间关系的reasoning信息。

本文的贡献可以总结如下:

提出通过视觉reasoning改进One-Stage目标检测。提出了一种新的提取图像区域间语义关系来预测边界框和类概率的体系结构。
分析了仅使用reasoning特征对目标检测性能的影响。证明了仅卷积和reasoning特征仍然能够实时运行,同时比Baseline模型取得了更好的性能。
分析了利用reasoning对每个对象类别的平均精度提高的影响。

2.本节采用方法

所提方法的总体结构如图1所示。首先,利用Darknet-53进行特征提取,与YOLOv3一样在3个不同的尺度上产生边界框预测。通过FPN进行必要的上采样操作后。然后,在reasoning层提取图像区域之间的语义关系。最后阶段由YOLO Head预测类概率和边界框。
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第1张图片

2.1 Reasoning Layer

transformer结构:
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第2张图片
采用类似transformer编码器的模型作为Reasoning层。Reasoning层的体系结构如图2所示。
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第3张图片

1、Flatten
Multi-Head Attention层期望有一个序列作为输入。在Flatten中Tensor被reshape为一个序列,并以这种形式输入到Multi-Head Attention层。
2、Positional Encoding(CVT中这里做了改进)
就其本质而言,Multi-Head Attention层是不知道顺序的。然而区域位置的信息是有价值的。为了对图像区域的顺序进行建模,采用固定正弦位置编码:
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第4张图片

第三节跟transformer中的结构一致论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第5张图片
4、Skip Connections
在reasoning层中有2个Skip Connections。如ResNet论文所述,反向传播得到了改进,并通过残差跳跃连接将原始信息传播到以下各层。
5、Normalization
在reasoning层的2个地方应用了归一化方法。除了残差的跳跃连接外,归一化也是改善反向传播的另一个关键因素。为了处理 internal covariate shift,作者采用了层归一化。
6、MLP
Multi-Head Attention的输出经过归一化后被输入到多层感知器(MLP)。MLP层由2个线性层和中间的ReLU非线性层组成:
在这里插入图片描述
7、Rearrange
Rearrange是reasoning层的最后一个子层,在其中序列被转换回检测Head所期望的shape。

2.2 Reasoner配置

1、YOLOv3-Reasoner1
在这个配置中,FPN输出被直接输入到reasoning层。每个Head分别选择16、8和4的下采样scale,使每个Head的嵌入尺寸为64。reasoning层输出输入1×1卷积层。YOLOv3-Reasoner1的整个体系结构如图4所示。
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第6张图片
yolov3的原始结构:
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第7张图片
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第8张图片
大概就是下面这个图(缩略版)
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第9张图片
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第10张图片
可以看到差别在reasoning layer。
2、YOLOv3-Reasoner2
在这种配置中,reasoning层的输出通过一个Shortcut的方式与FPN输出连接起来。然后,将连接层的输出输入到1×1的卷积层,以融合由推理和原始的单卷积特征组成的信息。有可能卷积特征的某些部分被减弱。本文的连接策略确保了原始卷积特征的可重用性。YOLOv3-Reasoner2的体系结构如图5所示。
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第11张图片
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第12张图片
论文速递-ANALYSIS OF VISUAL REASONING ON ONE-STAGE OBJECT DETECTION_第13张图片
总结一下
这篇文章其实就是加入了一个Multi-Head Attention结构,然后1和2的区别在于有没有加残差结构,CNN普遍存在缺乏全局特征提取能力,因此加入transformer的这个结构自然会有效,浅浅看下吧

你可能感兴趣的:(#,目标检测,计算机视觉,深度学习)