【论文笔记】Frustratingly Simple Few-Shot Object Detection

【论文笔记】Frustratingly Simple Few-Shot Object Detection

摘要
小样本目标检测是新涌现的一个问题,先前的研究中表明元学习是一种非常有效的方法,而微调技术很少被人注意到,本文作者发现仅微调稀有类别上现有检测器的最后一层对于小样本目标检测任务至关重要。这种简单的方法在当前基准上比元学习方法高出大约 2~20 个百分点,有时甚至是先前方法的准确性的两倍。然而,少数样本的高方差往往会导致现有基准的不可靠性。作者在实验中使用微调方法用与其他方法进行对比实验,并且提出一种新的评估方法。

方法

In this work, we propose improved methods to evaluate few-shot object detection. We carefully examine fine-tuning based approaches, which are considered to be under-performing in the previous works . We focus on the training schedule and the instance-level feature normalization of the object detectors in model design and training based on fine-tuning.

在以往的研究中微调的方法被认为表现不佳,本文中在基于微调的模型设计和训练中重点关注了目标检测器的训练计划和实例级特征归一化的问题。

In all these works, fine-tuning based approaches are considered as baselines with worse performance than meta-learning based approaches. They consider jointly fine-tuning, where base classes and novel classes are trained together, and fine-tuning the entire model, where the detector is first trained on the base classes only and then fine-tuned on a balanced set with both base and novel classes. In contrast, we find that fine-tuning only the last layer of the object detector on the balanced subset and keeping the rest of model fixed can substantially improve the detection accuracy, out performing all the prior meta-learning based approaches.This indicates that feature representations learned from the base classes might be able to transfer to the novel classes and simple adjustments to the box predictor can provide strong performance gain.

先前许多研究者考虑了联合训练(base类与novel类一起训练),并微调整个网络,但是,本文作者发现仅微调平衡子集上的目标检测器的最后一层并保持模型的其余部分固定可以显著提高检测精度,优于所有先前的基于元学习的方法。
由此,本文使用的方法可以总结如下:
【论文笔记】Frustratingly Simple Few-Shot Object Detection_第1张图片
本文方法的关键组成部分是将特征表示学习和框预测器学习分为两个阶段。
首先,第一阶段,利用大量的基本数据样本对普通的目标检测网络进行训练。这个阶段采用 Faster R-CNN作为基础检测模型。如上图所示,Faster R-CNN 模型的特征学习组件(称为 F)包括主干(例如,ResNet、VGG16)、区域提议网络 (RPN),以及作为特征提取器的两层全连接 (FC) 子网络。还有一个框预测器,由框分类器 C (用于对对象类别进行分类)和框回归器 R (用于预测边界框坐标)组成。利用大量的基本数据样本对普通的目标检测网络进行训练。
其次,第二阶段是基于小样本的微调。在保持整个特征提取器不变的情况下,将新类随机初始化的权值分配给box预测网络,只微调box分类和回归网络,即检测模型的最后一层。这个过程使用了和上一步相同的损失函数,并且缩小学习速率。
损失函数为:
损失函数
*Lrpn:RPN的输出以区分前景和背景;Lcls:框分类器 C 的交叉熵损失;Lloc:框回归器 R 的损失。 *

在此过程中,使用的分类器是基于cosine相似度函数,式子如下所示。其中Si,j为输入x的第i个候选对象与类j的权向量之间的相似度评分。α是比例因子。和FC-base的d分类器相比,基于instance-level feature归一化的余弦相似度分类器,后者有助于减少Novel类的方差,提高检测精度和减少检测的准确性,特别是在训练样本的数量很小的时候。
相似函数公式
实验
实验利用PASCAL VOC 数据集上的小样本检测性能 (mAP50),评估了三组不同的新类的表现。本文的方法始终在很大程度上优于基线方法(约 2∼20 分),尤其是在样本数量较少的情况下。 FRCN 代表 Faster R-CNN。 TFA w/cos 是使用基于余弦相似度的框分类器的方法。
【论文笔记】Frustratingly Simple Few-Shot Object Detection_第2张图片
最后,作者发现,现有的评估基准有两个问题:首先,现有的评估只关注网络对Novel类的性能。这忽略了base类中潜在的性能下降,从而忽略了网络的整体性能。其次,由于用于训练的样本较少,样本方差较大。这使得很难与其他方法的比较中得出结论,因为方差带来的误差影响着网络的精度,也就是分不清性能的提升是方差带来的还是网络自身的提高。
为了解决这个问题:作者修正了评估的方法,一方面评估base类的AP, 称为bAP。另一个是Novel类的AP (nAP)之外的整体AP。这样能够观察base类和Novel类的性能趋势,以及网络的总体性能。此外,模型在不同随机样本的训练样本上多次训练,以获得平均和置信区间。

参考文献
https://blog.csdn.net/Neal_YG/article/details/105146362
论文地址:
https://arxiv.org/pdf/2003.06957v1.pdf

你可能感兴趣的:(论文笔记,计算机视觉,人工智能)