论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution

文章目录

    • Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution for Small Object Detection
      • Abstract
      • 1. Introduction
      • 2. Related Work
      • 3. Mismatch of Relative Receptive Fields
      • 4. Our Approach
        • 4.1. Super-resolution Target Extractor
        • 4.2. Super-resolution Feature Generator
        • 4.3. 3. Training
        • 4.4. Inference
      • 5. Experiments
      • 6. Conclusion

Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution for Small Object Detection

Abstract

尽管基于proposal的卷积神经网络(CNN)模型在目标检测方面取得了成功,但由于小区域(RoI)中包含的信息有限,仍然很难检测到小物体。缓解这个问题的一种方法是使用超分辨率(SR)技术增强小RoI的特征。我们研究了如何改进feature-level超分辨率,特别是针对小物体检测,并发现通过以下方式可以显著提高性能:(i)利用适当的高分辨率目标特征作为超分辨率模型训练的监督信号,以及(ii)匹配输入低分辨率特征和目标高分辨率特征的relative receptive fields。我们提出了一种新颖的feature-level超分辨率方法,不仅正确地解决了这两个要求,而且还可以与任何基于proposal的检测器集成。在我们的实验中,我们的方法显著提高了Tsinghua-Tencent 100K、PASCAL VOC和MS COCO三个基准测试的Faster R-CNN性能。对于小物体,改进幅度相当大,令人鼓舞的是,中等和大型物体的改进也是显著的。因此,我们在Tsinghua-Tencent 100K上实现了新的最佳性能,并在PASCAL VOC和MS COCO上取得了极具竞争力的结果。

1. Introduction

自从深度卷积神经网络(CNN)出现以来,目标检测方法的性能迅速提高。目前有两种主要方法:基于proposal的两阶段模型具有较高的准确性优势,以及基于proposal的单阶段模型在速度方面具有优势。然而,尽管目标检测领域近年来取得了显著进展,但在某些条件下(如小物体、遮挡或截断)仍然很难检测物体。在本研究中,我们专注于改进基于proposal的检测框架中的小物体检测,如Faster R-CNN。

基于proposal的检测器基本上面临着一个问题,即针对小物体的区域proposal太小,无法识别。例如,黄等人表明,小物体的平均精度(mAP)得分大约比大物体低10倍。对于小proposal,感兴趣区域(RoI)池化层通常会提取replicated feature vectors作为输入传递给框预测器,这最终会导致预测缺乏足够的小物体详细信息。此外,RoI池化中的特征位置与图像中的实际位置可能不匹配。通过一些先进的池化技术,如RoI对齐和PrRoI池化,可以在一定程度上减轻RoI池化的这种失真。然而,它们并不提供额外的信息,供框预测器更好地检测小物体。

为了丰富小proposals中的信息,一些先前的研究利用了图像超分辨率技术。由于对整个图像进行超分辨率处理效率低下,Bai等人提出了将小proposals的图像像素超分辨率处理,使其与大proposals的像素类似。然而,由于该方法只关注RoI,其RoI超分辨率无法考虑上下文信息。通过特征级超分辨率,可以在提取proposals特征时利用连续卷积操作的大感受野,从而部分解决这个缺点。特别地,感知生成对抗网络(Perceptual GAN)利用生成对抗网络(GAN)来对proposals特征进行超分辨率处理,从而提高了小物体检测的准确性。

然而,针对小物体检测的现有特征级超分辨率模型存在一个重大限制:缺乏直接监督。也就是说,它们的超分辨率模型在没有明确目标特征的情况下进行训练,这导致训练不稳定和超分辨率特征的质量受限。对于图像检索任务,Tan等人表明,低分辨率特征与其高分辨率特征之间的 feature-wise content loss会导致更好的超分辨率特征,并具有更快的收敛速度。

不仅构建适当的高分辨率特征作为目标对于更好的训练至关重要,我们的分析还揭示,匹配pairs之间的相对感受野尤为重要,尤其是对于小RoI(图1)。也就是说,在仅考虑整体图像特征的图像检索任务中,高分辨率和低分辨率特征对之间的相对感受野并没有太大的差异。但是,在目标检测任务中常见的小RoI的差异非常大,这导致小proposals的超分辨率效果较差。

论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第1张图片
在这种背景下,本研究的贡献有三个方面:

  • 我们彻底审查了现有的针对小物体检测的特征级超分辨率方法,并发现(i)利用高分辨率目标特征作为监督信号,以及(ii)匹配输入和目标特征之间的相对感受野,检测性能得到了显著改善。
  • 我们提出了一种新颖的feature-level超分辨率方法,可以在任何基于proposal的检测器之上进行应用。它充分利用了高分辨率目标特征的直接监督,这些特征是由我们的target extractor创建的,该提取器利用了空洞卷积,无需额外的参数,因为它与基础检测器的CNN主干共享参数。此外,我们提出了一种 iterative refining generator作为一种特征超分辨率方法。
  • 我们的方法显著提高了Faster R-CNN在三个基准数据集Tsinghua-Tencent 100K、PASCAL VOC 和MS COCO 上对小物体检测的性能,使用了ResNet-50、ResNet-101 和MobileNet 等各种CNN主干。小物体的改进幅度非常大,令人鼓舞的是,中等和大型物体的改进也是显著的。因此,我们在Tsinghua-Tencent 100K上实现了新的最佳性能,并在PASCAL VOC和MS COCO上取得了极具竞争力的结果。

2. Related Work

略过

3. Mismatch of Relative Receptive Fields

在本节中,我们将讨论为什么matching relative receptive fields对于获得足够的低分辨率输入特征和高分辨率目标特征pairs是重要的。基于这个讨论,在接下来的部分,我们将提出我们的超分辨率目标提取器。一个直接的方法来获得这些pairs是从原始图像中选择一个大的兴趣区域(RoI),以及从降采样图像中选择一个smaller version。然而,这些对应特征在相对感受野方面并不完全匹配。为了清楚地看到为什么会出现这种差异,我们在图2中提供了一个直观的例子。
论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第2张图片

为了便于讨论,我们只考虑一个水平轴,一个宽度为w的RoI的绝对感受野(ARF)为:
在这里插入图片描述
相对感受野(RRF)定义为相对于图像IW尺寸的ARF,即:
在这里插入图片描述
让我们讨论一下当输入图像调整大小时,RRF如何发生变化。在0.5的降采样输入图像中,图像的宽度为IW / 2,特征图上RoI的宽度为w/2。我们定义原始图像和降采样图像之间RoI的RRF差异(DRRF)为:
论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第3张图片
其中c = RW / D - 1是一个常数。方程(3)可以很容易地从方程(2)推导出来。根据方程(3),当w趋近于0时,DRRF收敛到2,而当w增加时,它趋近于1。也就是说,对于一个小的RoI,同一个RoI的相对感受野(RRF)在原始图像和降采样图像之间可以相差高达2倍。另一方面,如果一个proposal的尺寸足够大,RRF会变得相似。例如,对于一个从宽度为1600的输入图像中提取的w = 4的RoI,如果我们使用具有ResNet-50主干的Faster R-CNN,其中RW = 291和D = 16,那么DRRF1/2(4, 1600)接近于1.8。也就是说,从降采样图像中提取的RoI的RRF大约比从原始图像中提取的RRF大1.8倍。Tan等人处理整个图像特征被超分辨率处理的图像检索任务,因此RRF的差异并不显著。相反,对于我们的工作中用于小物体检测的超分辨率,RRF的差异非常大,它可能严重误导超分辨率模型。

4. Our Approach

我们提出了一种新颖的方法,基于两个关键思想来增强小物体检测的特征超分辨率质量:(i)对超分辨率生成器的直接监督和(ii)通过空洞卷积(atrous convolution)实现的感受野匹配。

我们在基础检测器模型之上引入了四个额外的组件:超分辨率特征生成器和判别器、超分辨率目标提取器以及小型预测器。作为一个基于生成对抗网络(GAN)的模型,超分辨率特征生成器在超分辨率特征判别器的指导下,使用超分辨率目标提取器的特征作为目标,生成高分辨率特征。此外,small predictor 是基础检测器中预测器的replica。large predictor计算大proposals的分类和定位置信度,就像常规检测器中一样,而小预测器则为由超分辨率特征生成器增强的小proposals执行相同的任务。我们在Tsinghua-Tencent数据集上设置小proposals的阈值为(32×32),在VOC和COCO数据集上设置为(96×96)。图3显示了我们模型的整体架构。虽然我们的方法可与任何基于proposals的具有特征汇聚的检测器集成,但我们根据Faster R-CNN来解释模型。
论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第4张图片

4.1. Super-resolution Target Extractor

我们用I1.0表示原始输入图像,用I0.5表示其×0.5降采样图像。用F1.0i表示来自原始图像的第i个RoI的特征。在第3节中,我们揭示了将 F1.0i 用作 F0.5i 的超分辨率目标并不是一个好主意。相反,我们需要提取适当的高分辨率目标特征 T1.0i,其相对感受野与低分辨率特征F0.5i 相似。为此,我们引入了一个名为超分辨率目标提取器的额外CNN特征提取器,用于生成T1.0i,如图3所示。我们让超分辨率目标提取器与CNN主干(即基础检测器中的常规特征提取器)共享相同的参数,因为它们不应该针对相同输入的相同通道产生不同的特征。

超分辨率目标提取器的一个重要要求是要在每个层次上充分解决相对感受野,其中感受野会被扩展。在常规CNN中,每当应用卷积或池化层时,感受野都会被扩展,其滤波器尺寸大于1。因此,我们的超分辨率目标提取器应该设计成在CNN主干中使用这些层次中的任何一个时,能够覆盖相同的扩展感受野。对于无参数池化层,通过增加滤波器尺寸很容易实现。然而,对于卷积层来说,增加滤波器尺寸是无效的,因为这会使得参数与CNN主干的参数不同。因此,我们采用了 atrous卷积(空洞卷积)层,它在具有相同数量参数的同时,通过膨胀率来控制其感受野。我们在CNN主干的每个具有大于1的滤波器尺寸的卷积层上,应用膨胀率为2的空洞卷积。

另一个额外的处理是针对步幅(stride)。如图4(a)所示,如果CNN主干中的卷积层的步幅不是1(例如为2),那么对空洞卷积简单地使用相同的步幅大小是无效的,因为它会跳过每隔一个像素,如图4(b)所示。这个问题可以通过应用步幅为1的空洞卷积,然后再进行步幅为2的最大池化来解决,如图4©所示。
论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第5张图片

总之,超分辨率目标提取器由空洞卷积和池化层组成,这些层的排列方式保持了与CNN主干相同的RRF,同时共享相同的参数。来自超分辨率目标提取器的特征T1.0i是训练超分辨率模型的更好目标,而不是来自CNN主干的F1.0i。此外,T1.0i 的感受野比F1.0i 更大;它们包含更多的上下文信息,有助于更好地检测小物体。

4.2. Super-resolution Feature Generator

我们的特征级超分辨率模型基于生成对抗网络(GAN)。其终极目标是将小proposals的池化特征F1.0i 转换为超分辨率特征 S1.0i。为了得到一对低分辨率和高分辨率目标特征,我们首先将原始图像降采样为×0.5,获得第i个proposal的 F0.5i ,并将其与从超分辨率目标提取器生成的T1.0i 配对。也就是说,图5中的超分辨率特征生成器被学习为将F0.5i 迭代地优化为超分辨率特征S0.5i ,使得S0.5i 尽可能地与T1.0i 相似。
论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第6张图片

为了实现这个目标,我们设计了特征级别的内容ℓ2损失,如下所示:
论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第7张图片
在这个过程中,作为生成器的输入,我们同时使用来自前一层的特征F0.5sub,i(子层)和后一层的特征F0.5i(基础层)。由于F0.5i 只包含小RoI的粗糙和低频信息,我们从前一层补充其细致和高频信息 F0.5sub,i

对于SR特征判别器,我们使用一个包含三层的多层感知器(MLP)。判别器被训练成能够区分T1.0i和S0.5i 之间的差异,而生成器被训练成将F0.5i 转化为与T1.0i 不可区分的 S0.5i 。因此,生成器和判别器分别最小化以下损失函数

论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution_第8张图片
最后一点要注意的是,在为不同的损失构建低分辨率输入和高分辨率目标特征时,我们使用了thresholding。尽管不同的损失使用不同的阈值,我们应用以下通用规则:如果高分辨率特征太小而不能用作目标,则将其丢弃;如果低分辨率特征足够大,不需要进行超分辨率处理,则将其丢弃。我们根据第4节的概述为不同的数据集应用不同的阈值。关于阈值处理的更详细解释在补充材料中提供。

到目前为止,我们已经讨论了生成器如何将低分辨率特征F0.5i 优化为与目标特征T1.0i 相似。然而,我们的最终目标是更好地检测小物体;因此,我们需要训练生成器以一种有助于良好检测小物体的方式进行超分辨率处理。为此,我们进一步按以下方式对生成器进行训练。在生成器从F1.0i 产生超分辨率特征S1.0i 之后,我们将其输入到小型预测器中。然后,我们计算类别损失(Lcls)和定位损失(Lloc)作为预测器的损失,并将梯度信号传递给生成器进行微调。

4.3. 3. Training

我们首先训练基础检测器模型,该模型包括特征提取器、区域建议网络(RPN)和大型预测器。然后,使用特征(F1.0i 、F0.5i 和T1.0i )交替训练生成器和判别器,同时冻结特征提取器和RPN。生成器在生成器损失、内容损失、分类损失和定位损失的加权和的指导下进行训练,而判别器仅从判别器损失中进行训练。与GAN结构一起,小预测器同时使用分类和定位损失中的超分辨率特征S1.0i 进行训练。注意,我们使用基础检测器的特征提取器和大预测器的权重初始化SR目标提取器和小预测器。

一旦生成器和判别器都收敛,我们会进一步在冻结其他参数的情况下对小预测器和大预测器进行微调。对小预测器进行微调是有益的,因为它仅在超分辨率特征上进行训练,这些特征可能不完全与目标特征相同。这还有助于通过仅关注分类和定位损失进一步提升性能。只有大proposals的特征被传递到它的大预测器中,因此我们只对大预测器进行微调。

4.4. Inference

一旦训练完成,推断过程变得更加简单。我们只需在基础模型之上使用超分辨率特征生成器和小预测器,对应于图3中的主要预测部分。给定输入图像I1.0,我们从CNN主干获得特征F1.0。如果特征proposal较大,则大预测器用它来预测其类别和位置。另一方面,如果特征proposal较小,则首先使用超分辨率特征生成器对其进行超分辨率处理,然后将其传递给小预测器进行预测。

5. Experiments

略过

6. Conclusion

We proposed a novel feature-level super-resolution approach to improve small object detection for the proposalbased detection framework. Our method is applicable on top of any proposal-based detectors with feature pooling. The experiments on Tsinghua-Tencent 100K, PASCAL VOC and MS COCO benchmarks validated our super-resolution approach was indeed effective to detect small objects. In particular, our work proved that it is important to provide direct supervision using proper high-resolution target features that share the same relative receptive field with the low-resolution input features.
As future work, our model can be enhanced further in a couple of ways. First, we may update the SR feature generator by adopting the state-of-the-art models developed in the image super-resolution task. Second, the super-resolution ratio can be adaptively selected. Although we used only a fixed ratio of 2 in this work, the optimal ratio may depend on the characteristics of RoIs.

你可能感兴趣的:(论文阅读,目标跟踪,人工智能)