论文阅读 Extended Feature Pyramid Network for Small Object Detection

Extended Feature Pyramid Network for Small Object Detection

Abstract

小目标检测仍然是一个未解决的挑战,因为仅凭几个像素很难提取小目标的信息。虽然特征金字塔网络中的scale-level corresponding detection 减轻了这个问题,但我们发现不同尺度的特征耦合仍然损害了小目标的性能。在本文中,我们提出了一种扩展特征金字塔网络(EFPN),其中包括一个额外的高分辨率金字塔级别,专门用于小目标检测。具体来说,我们设计了一个名为“feature texture transfer”(FTT)的新模块,用于super-resolve 特征并提取区域细节。此外,我们引入了一种跨分辨率 distillation机制,用于在网络的不同尺度之间传递感知细节的能力,设计了一种前景-背景平衡的损失函数,以减轻前景和背景的面积不平衡。在我们的实验中,提出的EFPN在计算和内存上都非常高效,并在小型交通标志数据集清华大学腾讯100K和一般物体检测数据集MS COCO的小目标类别上取得了最先进的结果。

I. INTRODUCTION

目标检测是计算机视觉的基本任务。在过去的几年中,深度学习的快速发展推动了基于卷积神经网络(CNN)的检测器的流行,主要包括两阶段]和单阶段。尽管这些通用目标检测器在准确性和效率上取得了显著的改进,但在检测像素数量很少的小目标时仍然表现不佳。由于CNN反复使用池化层来提取高级语义信息,小目标的像素在下采样过程中可能会被滤掉。利用低级特征是获取有关小目标信息的一种方法。特征金字塔网络(FPN)是第一种通过融合不同级别的特征并构建特征金字塔来增强特征的方法,其中上层特征图负责较大目标的检测,而下层特征图负责较小目标的检测。尽管FPN提高了多尺度检测性能,但FPN检测器中金字塔级别与proposal大小之间的启发式映射机制可能会混淆小目标检测。如图1(a)所示,小型目标必须与中型目标和一些大型目标共享相同的特征图,而大型目标等容易情况可以从合适级别选择特征。此外,如图1(b)所示,随着目标尺度的减小,FPN底层的检测准确性和召回率显著下降。图1表明,在常规FPN检测器中,跨尺度的特征耦合仍然削弱了小目标检测的能力。

论文阅读 Extended Feature Pyramid Network for Small Object Detection_第1张图片
论文阅读 Extended Feature Pyramid Network for Small Object Detection_第2张图片

直观地说,弥补小目标信息丢失的另一种方法是增加特征分辨率。因此,一些超分辨率(SR)方法被引入到目标检测中。早期的做法直接对输入图像进行超分辨率处理,但后续网络中的特征提取的计算成本会很高。Li等人引入了GAN [来提升小目标的特征到更高的分辨率。Noh等人使用高分辨率目标特征来监督包含上下文信息的整个特征图的SR。这些特征SR方法避免增加CNN骨干网络的负担,但它们仅基于低分辨率特征图来想象缺失的细节,并忽视了骨干网络的其他特征中编码的可信细节。因此,它们倾向于在CNN特征上制造虚假纹理和伪迹,从而导致假阳性。

在本文中,我们提出了扩展特征金字塔网络(EFPN),它使用富含区域细节的大尺度SR特征来分离小型和中型目标检测。EFPN扩展了原始FPN,专门用于小型目标检测的high-resolution leve。为了避免直接高分辨率图像输入导致的昂贵计算,我们的方法的 extended high-resolution feature maps是通过嵌入FPN类似的框架的特征SR生成的。在构建常规特征金字塔后,提出的 feature texture transfer(FTT)模块首先将来自低分辨率特征的深层语义与来自高分辨率特征参考的浅层区域纹理相结合。然后,随后的FPN类似的横向连接将中间CNN特征图进一步丰富区域特征。EFPN的一个优点是高分辨率特征图的生成依赖于CNN和FPN生成的原始真实特征,而不是依赖于其他类似方法中不可靠的想象。如图1(b)所示,EFPN中具有credible details的扩展金字塔级别显著提高了小目标的检测性能。

此外,我们引入了一种跨分辨率蒸馏机制,其中由大尺度输入图像生成的特征用作监督,以优化具有小尺度输入的EFPN。在高质量特征的指导下,具有小尺度输入的网络能够学习大尺度网络如何感知小目标信息的知识,并将该知识应用于内部模块以提高其性能。其中,我们设计了一个前景-背景平衡的损失函数。我们认为一般的reconstruction
loss 将导致正像素的学习不足,因为小实例仅覆盖整个特征图上的 fractional area 。考虑到前景-背景平衡的重要性,我们将目标区域的损失添加到全局损失函数中,引起正像素特征质量的关注。

我们在具有挑战性的小型交通标志数据集Tsinghua-Tencent 100K和通用目标检测数据集MS COCO上评估了我们的方法。结果表明,所提出的EFPN在两个数据集上都优于其他最先进的方法。此外,与多尺度测试相比,单尺度EFPN实现了类似的性能,但却需要更少的计算资源。

为了更清晰,我们的工作的主要贡献可以总结如下:

  • 我们提出了扩展特征金字塔网络(EFPN),从而提高了小目标检测的性能。
  • 我们设计了一个关键的特征reference-based SR模块,称为特征纹理传输(FTT),为扩展特征金字塔赋予了可信的细节,以实现更准确的小目标检测。
  • 我们引入了一种跨分辨率蒸馏策略,以学习从较大尺度网络中感知对象细节的能力。在蒸馏中设计了一个前景-背景平衡的损失函数,用于关注正像素,缓解前景和背景之间的面积不平衡。
  • 我们的高效方法显著提高了检测器的性能,并在Tsinghua-Tencent 100K数据集和MS COCO的小类别上成为最先进的方法。

II. RELATED WORK

略过

III. OUR APPROACH

由于不同尺度之间的特征耦合以及金字塔级别与目标大小之间不合适的映射会降低检测器的性能,因此我们提出了一种扩展特征金字塔网络(EFPN),以分离不同尺寸对象的检测,并为小型对象分配更适合的特征级别。

首先,我们构建了一个扩展特征金字塔,其中底部具有高分辨率特征图,专门用于小型对象。由于其丰富的区域信息,小型对象被分配到此层。为了增强扩展层,我们设计了一个名为“feature texture transfer(FTT)”的新模块,用于为扩展特征金字塔生成中间特征。此外,我们采用跨分辨率蒸馏,其中提出了一种新的前景-背景平衡损失函数,进一步强化了对正像素的学习。EFPN网络和FTT模块的流程在第III-A节和第III-B节中解释,第III-C节详细说明了我们的跨分辨率蒸馏设计。

A. Extended Feature Pyramid Network

Vanilla FPN通过将高级别CNN特征图上采样并通过横向连接与较低特征融合,构建了一个由4层特征金字塔组成的结构。尽管不同金字塔级别上的特征负责不同大小的目标,但小目标检测和中等目标检测仍然耦合在FPN的同一底层P2上,如图1所示。为了解决这个问题,我们提出了EFPN来扩展原始的特征金字塔,增加了一个新的级别,用于具有更多区域细节的小目标检测。
论文阅读 Extended Feature Pyramid Network for Small Object Detection_第3张图片

我们通过嵌入具有特征SR模块的类似FPN的框架来实现扩展特征金字塔。这个流程直接从低分辨率图像中生成高分辨率特征,以支持小目标检测,同时保持低计算成本。EFPN的概述如图2(b)所示。

论文阅读 Extended Feature Pyramid Network for Small Object Detection_第4张图片

前4个金字塔层是通过自顶向下的路径构建的,用于中等和大型目标检测。EFPN的底部扩展部分包括FTT模块、自顶向下路径和图2(b)中的紫色金字塔层,旨在捕获小目标的区域细节。在EFPN中,我们将与来自原始FPN的Ci / Pi具有相同语义级别但分辨率更高的特征图表示为C’i / P’i。更具体地说,在扩展中,EFPN的第3和第4个金字塔层,分别表示为图2(b)中的绿色和黄色层,通过特征SR模块FTT混合在一起,生成带有选定区域信息的中间特征P’3,如图2(b)中的蓝色所示。然后,自顶向下路径将P’3与专门定制的高分辨率CNN特征映射C’2合并,生成最终的扩展金字塔层P’2。我们移除了ResNet / ResNeXt stage2中的最大池化层,并获得C’2作为stage2的输出,如表I所示。

论文阅读 Extended Feature Pyramid Network for Small Object Detection_第5张图片

C’2与原始C2具有相同的 representation level ,但由于具有更高的分辨率,因此包含更多区域细节。此外,C’2中较小的感受野有助于更好地定位小目标。从数学上讲,EFPN中扩展的操作可以描述为:

在这里插入图片描述
其中↑表示通过最近邻插值进行双倍上采样。在EFPN检测器中,proposal 大小与金字塔级别之间的映射仍然遵循[8]中的方式:

在这里插入图片描述
这里,l表示金字塔级别,w和h分别表示 proposal 的宽度和高度,224是规范的ImageNet预训练尺寸,l0 是应该将具有w × h = 2242 的proposal 映射到的目标级别。由于遵循EFPN的检测器可以自适应地适应各种感受野,因此可以忽略感受野漂移。

B. Feature Texture Transfer

受到 image reference-based 的超分辨率(SR)的启发,我们设计了FTT模块,以同时对特征进行超分辨率处理并从参考特征中提取区域纹理。如果没有FTT,EFPN的第4级P2中的噪声将直接传递到扩展的金字塔级别,并淹没有意义的语义。然而,所提出的FTT输出合成了上层低分辨率特征中的强语义和下层高分辨率参考特征中的关键局部细节,但丢弃了reference 中的干扰噪声。
论文阅读 Extended Feature Pyramid Network for Small Object Detection_第6张图片

如图3所示,FTT模块的主要输入是来自EFPN的第3层的特征图P3,reference 是来自EFPN的第4层的特征图P2。输出P’3可以定义为:

在这里插入图片描述
其中Et(·)表示纹理提取器组件,Ec(·)表示内容提取器组件,↑表示通过子像素卷积进行双重放大,|| 表示特征连接。内容提取器和纹理提取器都由残差块组成。

在主流程中,考虑到其效率,我们应用子像素卷积来提高主输入P3的内容特征的空间分辨率。子像素卷积通过在通道维度上分离像素来增加宽度和高度的像素。用卷积层生成的特征表示为F ∈ RH×W×C·r2。子像素卷积中的像素重排操作将特征重排成形状为 rH × rW × C 的图。这个操作可以在数学上定义为:
在这里插入图片描述
这里的PS(F)x,y,c 表示像素重排操作PS(·)后的坐标(x, y, c)上的输出特征像素,r表示放大因子。在我们的FTT模块中,我们采用r = 2,以便将空间尺度增加一倍。

在reference stream 中,reference feature P2和超分辨内容特征P3的wrap被送到纹理提取器。纹理提取器旨在捕捉适用于小物体检测的可信纹理,并阻止wrap中的无用噪声。从纹理和内容的最终逐元素相加确保了输出集成了来自输入和参考的语义和区域信息。因此,特征图P’3包含了来自浅层特征reference P2的可靠纹理,以及来自更深层级P3的类似语义。

C. Cross Resolution Distillation

多尺度训练和测试已经成为目标检测的一种常见技巧,因为使用更高分辨率的输入是提高小物体检测性能的有效方式,如图5所示。

论文阅读 Extended Feature Pyramid Network for Small Object Detection_第7张图片

然而,在一定的大尺度下,检测性能会饱和,而多尺度测试带来的额外的计算资源和运行时间在实际应用中是难以承受的。因此,我们提出了一种称为"跨分辨率蒸馏"的机制,引入来自高分辨率输入的特征作为监督信号。如图4所示,使用2×尺度输入的FPN的中间层用于指导使用1×-尺度输入的学生模型EFPN的训练。为了节省GPU内存,教师模型FPN和学生模型EFPN共享来自EFPN的前4层的参数权重。此外,在FEFPN上强制执行了强大的知识蒸馏约束,其中 P3监督FTT模块的学习,而 P2监督EFPN的底层。
论文阅读 Extended Feature Pyramid Network for Small Object Detection_第8张图片

特征级别的引导通过传授更大尺度网络处理区域细节的知识,以及教授EFPN中的SR模块技巧,从而增强了模型。在测试期间,我们的EFPN方法能够在小物体上表现良好,相对于直接的多尺度实践,使用低分辨率输入更加高效。
学生模型EFPN被训练以优化以下损失函数L:
在这里插入图片描述
这里,P2是来自2×输入FPN的目标P2,P3是来自2×输入FPN的目标P3。Lfbb是我们提出的前景-背景平衡损失,用来解决小物体与背景之间的面积不平衡问题,从而提高EFPN的综合质量。

常见的全局损失会导致小物体区域的学习不足,因为小物体仅占整个图像的一小部分。前景-背景平衡损失函数通过两部分来改进背景和前景的特征质量:1)全局重建损失 2)正样本损失。

全局重建损失主要强制实现与真实背景特征的相似性,因为背景像素占据了图像的大部分。在这里,我们采用了在SR中常用的 l1 损失作为全局重建损失Lglob

在这里插入图片描述
这里,F表示生成的特征图,而Ft表示目标特征图。
正样本损失用于引起正样本像素的注意,因为严重的前景-背景不平衡会影响检测器的性能。我们采用 l1 损失来计算前景区域的正样本损失Lglob

在这里插入图片描述
这里,Ppos表示 ground truth 对象的 patches,N表示正像素的总数,(x, y)表示特征图上像素的坐标。正样本损失对于对象所在的区域起到了更强的约束作用,强制学习这些区域的representation。

前景-背景平衡损失函数 Lfbb 可以表示为:

在这里插入图片描述
这里,λ是一个权重平衡因子。平衡损失函数通过提高前景区域的特征质量来挖掘真正的正样本,同时通过提高背景区域的特征质量来抑制假正样本。

IV. EXPERIMENTS

略过

V. CONCLUSION

In this paper, we propose extended pyramid network to remedy the problem of small object detection, where a layer specialized for small objects are generated by the FPNlike framework. A novel feature texture transfer module is embedded in the FPN-like framework to efficiently capture more regional details for the extended pyramid level by way of reference-based feature-level SR. Additionally, we introduce cross resolution distillation mechanism to improve the quality of SR features, where we design a foregroundbackground-balanced training loss to alleviate area imbalance of foreground and background. State-of-the-art performance on various datasets demonstrate superiority of EFPN in small object detection.
EFPN can be combined with various detectors, various backbones to strengthen small object detection, which means, EFPN can be transferred to more specific situations of small object detection like face detection or satellite image detection. For future work, we would like to explore practical applications of EFPN in more fields

你可能感兴趣的:(论文阅读,目标检测,人工智能)