Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning论文笔记

Meta-DETR

  • 一、摘要
  • 二、引言
  • 三、Method
    • 1、网络结构

一、摘要

先前的小样本目标检测都是基于刚开始生成的 好的 region proposals,但是这在小样本检测中很难获得到。本文提出了Meta-DETR,它剔除了RPN,在图片级别利用元学习统一得到class和location,它首先将支持图像和查询图像编码为类别相关的特征,然后将它们输入与类别无关的解码器,以直接生成特定类别的预测。还设计了一种语义对其机制(SAM),它将high-level与low-level语义进行对其,以提高泛化。

二、引言

之前的模型都是基于region proposals,它将分类和定位分成了两个任务,应该充分利用它们之间的互补关系
SAM通过对齐hight-level与low-level特征 ,来防止依赖于具有低泛化能力的特定类别表示
该论文的贡献主要有三点:
1、提出了Meta-DETR框架,将localization与class的图像级元学习统一为一个模块,不需要进行RPN
2、提出SAM,提高元学习的生成能力
3、大量的实验证明了模型的有效性。

FSOD模型也是基于RPN的,但它提出了Attention-RPN来缓解这一问题,但由于它的框架和rpn,问题仍然是存在的。

三、Method

1、网络结构

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning论文笔记_第1张图片
(1)QEB
有一个特征提取器(resnet)和transformer encoder组成。由于encoder的输入为一个序列,我们需要resnet生成的feature map压缩为一维向量,具体做法是:像feature map中注入位置向量,从而将它压为一维。
(2)SEB
SEB与QEB共享所有的可学习参数,不像QEB那样生成的是图片级别的特征,SEB生成的是每个类所有的物体的特征向量,因此,它引入了CCE来过滤掉特征图片中的不相关的信息,CCE没有可学习参数:<1>从encoder生成的features中恢复空间维数<2>使用ROIAlign来定位支持集物体实例<3>使用sigmoid函数计算全局平均池化向量。最后生成每个类的特征向量。
(3)DB
首先将SEB与QEB生成的feature map与向量聚合,生成一个与类别相关的features,然后将这些features与一个固定的要生成的object数量输入到DB中,生成每个类的检测结果。
(4)SAM
元学习的主要动机是获取能够概括到不同类别的元层次知识,而不是专注于特定类别 。 即使带有元学习,太深的网络就倾向于学习特定类的语义知识,而不是泛化。为了解决该问题,SAM集成了一个shortcut connection来绕过transformer encoder。

SAM背后的动机与各种神经网络体系结构中广泛使用的残余连接有很大的不同。ResNet[16]中的残差连接只绕过几个卷积层,目的是提高梯度流,解决训练深度神经网络时的梯度消失问题。Meta-DETR没有梯度消失的问题,因为它的transformer[67]构件已经包含了这些残余连接。相比之下,SAM中使用的剩余连接绕过了整个变压器编码器,旨在将其输出特征语义与输入对齐,从而起到自正则化的作用,以防止依赖于特定类别的语义。

你可能感兴趣的:(论文笔记)