Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning【阅读笔记】

目录

   一、摘要

   三、网络结构

   四、实验

   总结

一、摘要

论文提出了一种新的元学习检测器框架Meta-DETR,它消除了区域预测,而是以统一和互补的方式在图像水平上进行元学习目标定位和分类。

二、引言

受端到端目标检测框架DETR的启发,提出来Meta-DETR,不进行区域预测。

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning【阅读笔记】_第1张图片

论文主要贡献:

1、提出Meta-DETR框架将目标定位和分类的图像级元学习统一到一个模块中,不需要区域预测。

2、设计语义对齐机制(SAM),提高元学习的泛化能力。

三、网络结构

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning【阅读笔记】_第2张图片

1、Query Encoding Branch (QEB)

由feature extractor和 transformer encoder组成,给定一个查询图像,提取特征;由于transformer encoder期望一个序列作为输入,因此将特征映射的空间维度折叠到一维中,然后将它们输入transformer encoder以生成查询特性。

2、Support Encoding Branch (SEB)

SEBQEB共享所有可学习的参数。与QEB不同,SEB的目标是提取主要与支持图像中的某些对象实例相关的类别代码。因此,引入了类别代码提取器(CCE)来过滤掉支持图像中的无关信息。CCE没有可学习的参数。它通过三个顺序操作推导出支持类别代码: 1)从transformer encoder恢复特征的空间维度;2)使用RoIAlign [定位支持对象实例;3)全局平均池化,当一个类别有多个支持图像时,它将所有类别代码平均为最终的类别代码。

3、Decoding Branch (DB)

输入支持类别代码的查询图像特征,DB首先将它们聚合为特定于类别的特征,然后应用一个与类别无关的transformer decoder来预测相应的支持类别上的检测结果。

4、Semantic Alignment Mechanism (SAM)

元学习的主要动机是获得可以泛化到各种类别,而不是专注于特定的类别。即使有元学习的更深层次的网络仍然倾向于学习和依赖于特定类别的语义,而泛化效果不佳。为了缓解这个问题引入(SAM)机制,通过对齐其输入和输出的特征语义来防止transformer encoder依赖于不需要的类别特定特征。

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning【阅读笔记】_第3张图片

四、实验

在VOC/COC 数据集上进行了对比、消融实验,验证了框架的检测精度。

Meta-DETR: Few-Shot Object Detection via Unified Image-Level Meta-Learning【阅读笔记】_第4张图片

总结

论文提出了一种新的结合目标定位和分类的元学习,在图像层次上的少镜头目标检测框架。通过消除在少镜头场景中存在问题的区域预测,并有效地利用定位和分类之间的协同关系,克服了现有方法的共同弱点。大量的实验验证了Meta-DETR建立了最先进的新技术,并在没有花哨声的情况下大大优于以前的作品。

本人小白一个,如有错误希望多多包涵。

你可能感兴趣的:(论文阅读,目标检测,深度学习)