【论文速递】一种用于目标检测的结构知识蒸馏

【论文原文】:Structural Knowledge Distillation for Object Detection

获取地址:https://arxiv.org/pdf/2211.13133.pdf

摘要:

知识蒸馏(KD)是深度神经网络中一种众所周知的训练范式,其中由教师模型获得的知识传递给一个学生模型。KD已被证明是一种有效的技术,可以显著提高学生模型在各种任务(包括目标检测)中的表现。因此,KD技术主要依赖于中间特征的指导,这通常通过在训练期间最小化教师和学生模型激活之间的l_p范数距离来实现。 本文中提出了一种基于结构相似性(SSIM)的像素独立-范数的替换。通过考虑额外的对比度和结构线索,在损失公式中考虑了特征空间中的特征重要性、相关性和空间相关性。 MSCOCO上的大量实验证明了本文的方法在不同训练方案和架构中的有效性。本文的方法只增加了很少的计算开销,易于实现,同时显著优于标准的l_p范数。此外,与普通模型相比,使用基于注意力的采样机制比最先进KD方法表现更好,包括使用Faster R-CNN R-50获得+3.5 AP增益。

简介:

KD将计算昂贵的教师模型获得的知识迁移到较小的学生模型。KD已被证明在分类、分割等任务中非常有效,特别是最近在目标检测方面取得了长足发展。由于典型目标检测模型的输出空间的复杂性,有必要在中间特征应用KD,因为仅依赖基于输出的KD已被证明是无效的。在基于特征的KD中,除了现有目标之外,还引入了一个训练目标,该目标最小化了教师和学生激活之间的误差,并且是由单个特征激活之间的-范数距离定义的事实标准,如图1a所示。然而,l_p范数忽略了特征图中存在的3个重要信息:

1.特征之间的空间关系
2.教师和学生特征之间的相关性
3.个体特征的重要性

最近的工作侧重于通过假设对象区域更“knowledge-dense”,通过对特征激活进行采样的机制绕过后一点。然而,正如Guo等人所证明的那样,即使只提取背景特征激活也可以显著提高性能,因此不能假设仅目标区域包含有用的知识。采样机制还引入了额外的缺陷,这些缺陷可能会限制其在现实世界应用中的更广泛实现,例如需要标注数据。在这项工作中提出了结构知识蒸馏,其目的是改善与作为KD方法核心驱动因素的-范数相关的缺点,而不是设计更复杂的采样机制。作者的关键见解如图1b所示。

【论文速递】一种用于目标检测的结构知识蒸馏_第1张图片

图1 基于特征的知识蒸馏

CNN的特征空间可以局部分解为亮度(均值)、对比度(方差)和结构(互相关)分量,这一策略已在SSIM形式的图像领域成功应用。
新的训练目标变成最小化均值和方差的局部差异,并最大化教师和学生激活之间的局部零归一化互相关。这样做可以捕捉教师和学生的特征激活之间的空间关系和相关性中包含的额外知识,而不是直接最小化个体激活的差异。
为了证明方法的有效性,使用各种检测架构和训练方案进行了广泛的实验。总体而言,贡献如下:

1.提出了结构知识蒸馏,它引入了和变体,以代替目标检测模型中基于特征的KD的l_p范数。这使得能够捕获学生和教师网络的特征空间中表现为局部均值、方差和互相关关系的额外知识。

2.通过对特征空间的分析说明本文方法关注的是不同于l_p范数的区域,因此,仅从目标区域采样是次优的,因为整个特征空间可以包含取决于激活模式的有用知识。

3.通过在MSCOCO上进行大量实验,证明了在各种训练设置和模型架构下检测精度的一致性定量改进。本文的方法甚至性能相当或优于精心调整的最先进的目标采样机制,并通过仅引入一行代码从根本上实现了这一点。

【社区访问】

在这里插入图片描述【论文速递 | 精选】

在这里插入图片描述阅读原文访问社区

https://bbs.csdn.net/forums/paper

你可能感兴趣的:(深度学习,目标检测,计算机视觉)