CVPR 2021 Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection

动机

深度学习算法通常需要大量的标注数据才能获得更好的性能。而大量的标注数据需要收集大量的样本进行标注完成,由于真实世界数据固有的长尾分布,如稀有动物之类的,只有少数样本可用,小样本目标检测是一个迫切而持久的问题。由于小样本目标检测的性能对显性和隐性的样本数量非常敏感,当数据有限时,性能也会急剧下降,很大程度上受到新类数据稀缺的影响。新目标的学习只通过图像,即视觉信息,并且各类之间的学习是独立的,不存在知识传播。然而因为图像数据的稀缺,视觉信息变得有限。但是无论数据的可用性如何,新类和基本类之间的语义关系都是不变的,结合视觉信息一起学习有助于标注标注完成。当视觉信息难以获得时,显性的关系推理会更有用。

方法简介

本论文结合这种语义关系和视觉信息,将显性关系推理引入到新目标检测的学习中,提出了一种新的小样本检测器(SRR-FSD),它以端对端的方式同时从那个视觉信息和语义关系中学习新的目标,在新目标的样本变化上是鲁棒和稳定的。将从大量文本中学习的语义嵌入用来表示每个类的概念,从而构建语义空间。在类的词嵌入的帮助下,检测器是用来训练去将目标从视觉空间投影到语义空间,并将其图像表征与相应的类嵌入进行对齐。语义空间投影学习将视觉空间中的概念与语义空间相匹配。但它仍然独立地对待每个类,类之间不存在知识传播。因此,进一步引入知识图来建模它们之间的关系。为解决用启发式知识图使用原始嵌入作用微乎其微以及视觉与语义间的跨域问题,代替使用基于启发式的预定义关系图,提出了一个由图像数据驱动的动态关系图,并利用学习到的图进行关系推理,扩充原始嵌入,减少域间距。学习动态图的另一个好处是,它可以很容易地适应新的类别。因为这个图不是固定的,而是由单词嵌入动态生成的。不需要重新定义一个新的图,从一开始就重新训练检测器。可以很容易的插入新类的相应嵌入,并微调检测器。

方法细节

传统的目标检测有一个包含许多实例的基本类别集合和一个包含丰富图像的基本数据集。数据集是由一组标注图像组成。本论文提出的小样本检测器是建立在Faster R-CNN的基础上,可以分为两个训练阶段,第一个阶段是基本训练阶段,在基本数据集上训练检测器。在第二阶段,对基本数据集和新数据集联合做进一步的微调。为了避免出自基本数据集的目标的优势,从基本数据集中采样了一个小子集,这样训练集就可以平衡每个类的目标数量。在第二阶段,随着类别总数增加了新类集的大小,更多特定类的参数被插入检测器,并用来训练新目标的检测。特定类的参数通常是用在网络末端的框分类和定位层中。

本论文在Faster R-CNN的基础上,将语义关系与视觉信息相结合,在语义空间中进行关系推理,构建SRR-FSD。具体方法细节如下:

  1. Faster R-CNN是一个two-stage通用目标探测器。在Faster R-CNN的second-stage,它为每个区域候选提取一个特征向量,并前向传递到分类子网和回归子网。在分类子网中,通过全连通层将特征向量转化为一个多维向量。然后将该向量乘以一个可学习的权重矩阵,通过softmax输出一个概率分布。

  2. 为了从视觉信息和语义关系两个方面学习目标,首先构建一个语义空间,并将视觉特征投射到这个语义空间中。具体来说,使用一组多维词嵌入来表示语义空间,该词嵌入对应于N个目标类(包括背景类)。训练检测器在分类子网中学习一个线性投影,使视觉特征在投影后与其类的词嵌入对齐。

  3. 受transformer概念的启发,使用自注意力机制来实现动态图。将原始的词嵌入经过三个线性层进行变换,并根据其中前2个线性层的输出计算出一个自注意力矩阵。自注意力矩阵和第三个线性层的输出做点乘,并输入到第四个线性层进行线性变换。残差连接将第四个线性层的输出与原始的词嵌入做元素相加运算。

  4. 学习动态图可以很容易的插入新类的相应嵌入,并微调检测器。在第二个微调阶段,只解冻SRR-FSD的最后几层,类似于TFA。对于分类子网,对关系推理模块中的参数和投影矩阵进行微调。对于定位子网,它不依赖于词的嵌入,而是与分类子网共享特征。文中发现在新目标上的位置学习可以通过共享特征干扰分类子网,导致许多误报。解耦两个子网之间共享的完全连接层可以有效地使每个子网为其任务学习更好的特性。换句话说,分类子网和定位子网有不同的完全连接层,它们是独立做微调。
    CVPR 2021 Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection_第1张图片

实验细节

SRR-FSD是基于Faster R-CNN实现的,以renet -101和特征金字塔网络为骨干,使用MMDetection框架。所有模型均采用随机梯度下降(SGD)训练,批处理规模为16。对于单词嵌入,使用L2正则公式规范化的300维Word2Vec向量,这些向量来自于在Wikipedia等大型未注释文本上训练的语言模型。在关系推理模块中,根据经验将词的嵌入维数降至32。在第一个基本训练阶段,设置学习率、动量和权重衰减分别为0.02、0.9和0.0001。在第二个微调阶段,非特殊情况,都将学习率降低到0.001。输入图像的采样方法是先在基本数据集和新数据集之间以50%的概率随机选择,然后从选择的数据集中随机选择一张图片。

实验表明,在语义关系推理的帮助下,不论是在多样本还是小样本,SRR-FSD均取得了更具竞争力的结果,并且从预先训练的分类数据集中移除隐性样本,SRR-FSD也稳定地保持了性能。

你可能感兴趣的:(CVPR,2021)