知识蒸馏(KD)在目标检测中具有强大的学习紧凑模型的能力。以往的KD目标检测方法大多侧重于模仿模仿区域内的深层特征,而不是模仿分类logit,因为其在提取定位信息方面效率低下,并且改进很小。本文通过对知识蒸馏的重新表述,在定位过程中,我们提出了一种新的定位提取方法,可以有效地将定位知识从教师传递给学生。此外,我们还启发性地引入了有价值的定位区域的概念,可以帮助有选择地提取特定区域的语义和定位知识。首次将这两个新组件结合起来,我们证明了logit模拟优于特征模拟,并且在提取目标检测器时,定位知识提取比语义知识更重要、更有效。我们的蒸馏方案简单有效,可以很容易地应用于不同的稠密物体探测器。实验表明,在COCO基准上,我们的LD可以在不牺牲推理速度的情况下,通过单尺度1×训练计划将GFocal-ResNet-50的AP分数从40.1提高到42.1。
定位是目标检测中的一个基本问题。边界盒回归是迄今为止最流行的目标检测定位方法,其中Dirac delta分布表示直观且流行多年。然而,当物体的边缘不能可靠定位时,定位模糊仍然是一个常见的问题。例如,如图1所示,“大象”的下边缘和“冲浪板”的右边缘定位不明确。对于轻型探测器来说,这个问题更为严重。缓解这一问题的一种方法是知识提取(KD),作为一种模型压缩技术,它已被广泛验证,可以通过传输大型教师网络捕获的广义知识来提高小型学生网络的性能。
图1 “大象”的下边缘和“冲浪板”的右边缘不明确
对于目标检测中的KD,以前的工作指出,原始的logit模拟分类技术效率低下,因为它只传递语义知识(即分类),而忽略了局部知识提取的重要性。因此,现有的KD目标检测方法大多侧重于增强师生对之间深度特征的一致性,并利用各种蒸馏模拟区域。图2展示了三种用于目标检测的流行KD管道。然而,由于语义知识和定位知识在特征地图上是混合的,很难判断在每个位置转移混合知识是否有利于性能,以及哪些区域有利于特定类型知识的转移。
图2 用于目标检测的现有KD管道。① Logit模拟:分类KD见[20];② 特征模拟:最近流行的方法基于各种提取区域提取中间特征,通常需要自适应层来对齐学生特征图的大小;③ 伪BBox回归:将教师预测的边界框作为额外的回归目标。
基于上述问题,在本文中,我们提出了一种新的分而治之的提取策略,而不是简单地在特征地图上提取混合知识,该策略分别传递语义和定位知识。对于语义知识,我们使用原始分类KD。对于定位知识,我们重新描述了定位上的知识传递过程,并通过将边界框切换到概率分布,提出了一种简单而有效的定位提取(LD)方法。这与以前将教师的输出视为额外的回归目标(即图2中的伪BBox回归)的工作有很大不同。得益于概率分布表示,我们的LD可以有效地将教师学到的丰富定位知识传递给学生。此外,在提出的分治提取策略的基础上,我们进一步引入了有价值的局部区域(VLR),以帮助有效地判断哪些区域有利于分类或局部学习。通过一系列实验,我们首次证明了原始logit模拟可以优于特征模拟,定位知识提取比语义知识更重要、更有效。我们认为,基于各自的有利区域分别提取语义和定位知识可能是训练更好的目标检测器的一种有希望的方法。
我们的方法简单,可以很容易地安装在任何密集对象检测器中,以提高其性能,而不引入任何推理开销。在MS COCO上进行的大量实验表明,在没有铃声和哨声的情况下,我们可以将具有ResNet-50-FPN主干的强基线GFocal的AP分数从40.1提高到42.1,AP 75从43.1提高到45.6。我们的最佳模型使用ResNeXt-101-32x4d-DCN主干可以实现50.5 AP的单标度测试,这超过了相同主干、颈部和测试设置下的所有现有检测器。
在本节中,我们简要回顾了相关工作,包括边界盒回归、定位质量估计和知识提取。
包围盒回归是目标检测中最常用的定位方法。R-CNN系列采用多元回归阶段来细化检测结果,而[2,33,41–43,50]采用一阶段回归。在[45,60,67,68]中,提出了基于IoU的损失函数来提高包围盒的定位质量。最近,包围盒表示法已从Dirac delta分布发展到高斯分布,并进一步发展到概率分布。包围盒概率分布更全面地描述了包围盒的不确定性,并被验证为迄今为止最先进的包围盒表示法。
顾名思义,定位质量估计(LQE)预测一个分数,该分数衡量检测器预测的边界框的定位质量。LQE通常用于在训练期间配合分类任务,即增强分类和定位之间的一致性。它还可以应用于后处理过程中的联合决策,即在执行NMS时同时考虑分类分数和LQE。早期的研究可以追溯到YOLOv,其中预测的对象置信度用于惩罚分类分数。然后,提出了盒/掩码IoU和盒/极心度分别用于建模目标检测和实例分割的检测不确定性。从边界盒表示的角度来看,Softer-NMS和高斯YOLOv3预测边界盒每个边缘的方差。LQE是一种初步的建模定位模糊的方法。
知识蒸馏旨在学习由优秀教师网络引导的紧凑高效的学生模型。FitNets建议模仿教师模型隐藏层中的中级提示。[5]首次将知识蒸馏应用于目标检测,其中提示学习和KD都用于多类对象检测。然后,李等人提出了在区域内模拟特征的建议,以实现更快的R-CNN。王等人模拟了紧密锚箱位置的细粒度特征。最近,Dai等人引入了通用实例选择模块,以模拟师生对之间有区别的补丁中的深层特征。当在对象区域和背景区域上进行特征模拟时,失败利用了不同的损失权重。与上述基于特征模拟的方法不同,我们的工作引入了局部提取,并提出基于有价值的局部区域分别传递分类和定位知识,以提高提取效率。
在本节中,我们将介绍拟议的蒸馏方法。我们提出了一种新的分而治之的提取策略,该策略不是在特征地图上提取混合知识,而是根据各自的首选区域分别提取语义和定位知识。为了传递语义知识,我们只需在分类头上采用分类KD,而对于定位知识,我们提出了一种简单而有效的定位提取(LD)。这两种技术都是基于单个头部的逻辑,而不是深层特征。然后,为了进一步提高蒸馏效率,我们引入了有价值的局部区域(VLR),可以帮助判断哪种类型的知识有利于不同区域的转移。在接下来的内容中,我们首先简要回顾包围盒的概率分布表示和然后过渡到所提出的方法。
对于给定的边界框B,传统表示有两种形式,即{x、y、w、h}(中心点坐标、宽度和高度)和{t、B、l、r}(从采样点到顶部、底部、左侧和右侧边缘的距离)。这两种形式实际上遵循Diracdelta分布,该分布仅关注地面真值位置,但无法建模边界框的模糊性,如图1所示。这在以前的作品中也得到了清楚的证明。
在我们的方法中,我们使用了最近的包围盒概率分布表示,它更全面地描述了包围盒的定位不确定性。让e∈ B是边界框的边。其价值通常可以表示为:
其中x是范围在[e min,e max]内的回归坐标,Pr(x)是相应的概率。传统的Dirac delta表示是Eqn的特例。(1) ,其中,当x=e gt时,Pr(x)=1,否则Pr(x)=0。通过将连续回归范围[e min,e max]量化为均匀离散变量e=[e 1,e 2,···,e n]T∈ R n具有n个子区间,其中e 1=e min和e n=e max,给定边界盒的每个边缘可以通过使用SoftMax函数表示为概率分布。
在本小节中,我们提出了定位蒸馏(LD),这是一种提高目标检测蒸馏效率的新方法。我们的LD是从包围盒的概率分布表示的角度发展而来的,包围盒最初设计用于一般的目标检测,并携带丰富的定位信息。图1中模糊和清晰的边缘将分别通过分布的平坦度和锐度来反映。
LD的工作原理如图3所示。给定任意密集对象检测器,遵循[29],我们首先将边界盒表示从四元表示转换为概率分布。我们选择B={t,B,l,r}作为包围盒的基本形式。与{x,y,w,h}形式不同,{t,b,l,r}形式中每个变量的物理意义是一致的,这便于我们将每个边缘的概率分布限制在相同的区间范围内。根据[66],两种形式之间没有性能差异。因此,当给出{x,y,w,h}形式时,我们将首先将其转换为{t,b,l,r}形式。
图3 边缘e的局部蒸馏(LD)图示∈ B={t,B,l,r}。此处仅显示定位分支。S(·,τ)是具有温度τ的广义SoftMax函数。对于给定的检测器,我们首先将边界框表示转换为概率分布。然后,我们通过对主蒸馏区域和有价值的局部区域进行区域加权来确定提取位置。最后,我们计算了教师和学生预测的两个概率分布之间的LD损失。
设z为定位头预测的边e所有可能位置的n对数,分别由教师和学生的z T和z S表示。与[29,39]不同,我们使用广义SoftMax函数S(·,τ)=SoftMax(·/τ)将z T和z S转换为概率分布p T和p S。注意,当τ=1时等效于原始SoftMax函数。当τ→ 0,它倾向于Dirac delta分布。当τ→ ∞, 它将退化为均匀分布。根据经验,τ>1被设置为软化分布,使概率分布携带更多信息。
测量两个概率p T,p S之间相似性的局部化蒸馏∈ R n通过以下方式获得:
其中,L KL表示KL发散损失。然后,边界框B的所有四条边的Ld可以公式化为:
讨论:我们的LD是首次尝试采用logit模拟来提取用于目标检测的定位知识。虽然盒子的概率分布表示在一般的目标检测任务中已经被证明是有用的,但没有人研究它在定位知识提取中的性能。我们将盒子的概率分布表示和KL发散损失相结合,并证明这种简单的logit模拟技术在提高目标检测器的蒸馏效率方面表现良好。这也使得我们的LD与以前的相关工作有很大不同,相反,这些工作强调了特征模仿的重要性。在我们的实验部分,我们将对所提出的LD的优点进行更多的数值分析。
以往的研究大多通过最小化L2损失来迫使学生的深层特征模仿教师的深层特征。然而,一个简单的问题应该是:我们是否应该不加歧视地使用整个模仿区域来提取混合知识?根据我们的观察,答案是否定的。以前的工作已经指出,分类和定位的知识分布模式是不同的。因此,在本小节中,我们描述了有价值的局部化区域(VLR),以进一步提高蒸馏效率,我们认为这将是一种很有希望的方法来训练更好的学生检测器。
具体来说,蒸馏区域分为两部分,主蒸馏区域和有价值的局部区域。主蒸馏区由标签分配直观确定,即检测头的正位置。算法1可以获得有价值的定位区域。首先,对于第l个FPN级别,我们计算了所有锚盒B a l和地面真值盒B gt之间的DIoU矩阵X l。然后,我们将DIoU的下限设置为αvl=γαpos,其中αpos是标签分配的正IoU阈值。VLR可以定义为V l={αvl⩽ X长⩽ αpos}。我们的方法只有一个超参数γ,它控制VLR的范围。当γ=0时,预设锚定框和GT框之间的距离满足0的所有位置⩽ x i l j⩽ αpos将被确定为VLR。当γ→ 1,VLR将逐渐收缩为空。这里我们使用DIoU,因为它对靠近物体中心的位置给予了更高的优先级。
算法1有价值的定位区域
与标签分配类似,我们的方法将属性分配给跨多级FPN的每个位置。这样,还将考虑GT箱外的一些位置。因此,我们实际上可以将VLR视为主蒸馏区的向外延伸。注意,对于无锚检测器,如FCO,我们可以在特征地图上使用预设锚,并且不改变其回归形式,以便定位学习保持为无锚类型。虽然对于通常在每个位置设置多个锚的基于锚的检测器,我们展开锚盒来计算DIoU矩阵,然后分配其属性。
训练学生的总损失可以表示为:
其中前三项与任何基于回归的检测器的分类和包围盒回归分支完全相同,即L cls是分类损失,L reg是包围盒回归损失,L DFL是分布焦点损失。I Main和I VL分别是主蒸馏区域和有价值定位区域的蒸馏掩码,L KD是KD损失,C S和C T分别表示学生和教师的分类头输出对数,C gt是基本真值类标签。所有蒸馏损失将根据其类型由相同的权重因子加权,例如,LD损失遵循bbox回归,KD损失遵循分类。此外,值得一提的是,由于LD损耗具有足够的引导能力,因此可以禁用DFL损耗项。此外,我们可以启用或禁用四种类型的蒸馏损失,以便以单独的蒸馏区域方式蒸馏学生。
在本节中,我们进行了全面的烧蚀研究和分析,以证明所提出的LD和蒸馏方案在具有挑战性的大规模MS COCO基准上的优越性。
train2017(118K图像)用于训练,val2017(5K图像)用于验证。我们还通过提交到COCO服务器获得MS COCO test dev 2019(20K图像)的评估结果。实验是在mmDetection框架下进行的。除非另有说明,我们使用带有FPN的ResNet作为主干和颈部网络,使用FCOS风格的无锚头进行分类和定位。消融实验的训练计划设置为单尺度1×模式(12个周期)。对于其他训练和测试超参数,我们完全遵循GFocal协议,包括用于分类的QFL损失和用于bbox回归的GIoU损失等。我们使用标准COCO风格用于评估的测量,即平均精度(AP)。通过采用相同的方法重新训练所有基线模型设置,以便与我们的LD进行公平比较。有关PASCAL VOC的更多实现细节和更多实验结果,请参阅补充材料。
(a) LD中的温度τ:具有大τ的广义Softmax函数带来了可观的增益。我们默认设置τ=10。老师是
ResNet-101,学生是ResNet-50
(b) LD与伪BBox回归[5]:我们的LD可以更有效地传递定位知识。老师是ResNet-101,学生是ResNet-50
(c) γ在VLR中的作用:在有价值的定位区域上传导LD对性能有积极影响。默认情况下,我们将γ设置为0.25。老师是ResNet-101,学生是ResNet-50。
表1 烧蚀。我们在COCO val2017上展示了LD和VLR的消融实验。
LD中的温度τ。我们的LD引入了一个超参数,即温度τ。表1a报告了不同温度下的LD结果,其中教师模型为ResNet-101,AP 44.7,学生模型为ResNet-50。此处仅采用主蒸馏区。与表1a中的第一行相比,不同温度始终会导致更好的结果。在本文中,我们简单地将LD中的温度设置为τ=10,这在所有其他实验中是固定的。
LD与伪BBox回归。教师有界回归(TBR)损失是在定位头上增强学生的初步尝试,即图2中的伪bbox回归,其表示为:
其中B s和B t分别表示学生和教师的预测框,B gt表示地面真值框,ε是预定义的裕度,L reg表示GIoU损失。此处仅采用主蒸馏区。从表1b中可以看出,当在等式n中使用适当的阈值ε=0.1时,TBR损耗确实会产生性能增益(+0.4 AP和+0.7 AP 75)。(6). 但是,它使用粗bbox表示法,不包含检测器的任何定位不确定性信息,导致次优结果。相反,我们的LD直接产生41.1 AP和44.9 AP 75,因为它利用了包含丰富定位知识的bbox的概率分布。
VLR中的各种γ。新引入的VLR具有控制VLR范围的参数γ。如表1c所示,当γ在0到0.5之间时,AP是稳定的。AP在此范围内的变化约为0.1。随着γ的增加,VLR逐渐收缩为空。性能也逐渐降至41.1,即仅在主蒸馏区进行LD。灵敏度分析实验参数γ表明,在VLR上传导LD对性能有积极影响。在其余实验中,为了简单起见,我们将γ设置为0.25。
分离蒸馏区方式。关于KD和LD及其首选区域的作用,有一些有趣的观察结果。我们在表2中报告了相关的烧蚀研究结果,其中“Main”表示logit模拟在主蒸馏区进行,即标签分配的正位置,“VLR”表示有价值的定位区。可以看出,执行“主KD”、“主LD”及其组合都可以分别将学生的表现提高+0.1、+1.0和+1.3 AP。这表明主蒸馏区包含有分类和定位的有价值知识,分类KD比LD受益更少。然后,我们将蒸馏施加在更大的范围上,即VLR。我们可以看到,“VLR LD”(表2的第5行)可以在“主LD”(第3行)的基础上进一步将AP提高+0.7。然而,我们观察到,进一步涉及“VLR KD”会产生有限的改善(表2的第2行和第5行),甚至没有改善(表2的最后两行)。这再次表明,定位知识提取比语义知识提取和我们的分而治之提取方案(即“Main”)更重要、更有效KD“+”MainLD“+”VLRLD“,是VLR的组成部分。
表2 KD和我们的LD的分离蒸馏区方式的评估。老师是ResNet-101,学生是ResNet-50。“Main”表示主蒸馏区,即标签分配的正位置。“VLR”表示有价值的定位区域。结果在MS COCO val2017进行实验得出
Logit模仿与功能模仿。我们将我们提出的LD与几种最先进的特征模拟方法进行了比较。我们采用分离蒸馏区的方式,即在主蒸馏区执行KD和LD,在VLR上执行LD。由于现代检测器通常配备FPN,继之前的工作之后,我们重新实现了它们的方法,并将所有特征模拟施加在多级FPN上,以进行公平比较。这里,“FitNets”提取了整个特征图。“失败”表示GT框外特征模拟的损失权重大于GT框内的损失权重。“细粒度”提取紧密锚箱位置的深层特征。“GI模仿”根据学生和教师的判别预测选择蒸馏区域。“内部GT盒”是指我们在FPN层上使用与特征模拟区域步幅相同的GT盒。“主要区域”是指我们模仿主要蒸馏区域内的特征。
从表3中,我们可以看到,在整个特征图中的蒸馏达到+0.6 AP增益。通过为GT盒外的位置设置更大的损失重量(失败),性能略优于对所有位置使用相同损失重量。细粒度聚焦于GTbox附近的位置,生成41.1 AP,这与使用主区域的特征模拟结果相当。GI模仿[8]搜索判别补丁进行特征模仿,获得41.5 AP。由于学生和教师之间的预测差距很大,模仿区域可能出现在任何地方。
表3 Logit模仿与功能模仿。“我们的”是指我们使用分离蒸馏区的方式,即在主蒸馏区上进行KD和LD,在VLR上进行LD。老师是ResNet-101,学生是ResNet50。结果在MS COCOval2017进行实验得出
尽管这些特征模拟方法有了显著的改进,但它们没有明确考虑知识分布模式。相反,我们的方法可以通过单独的蒸馏区方式传递知识,直接生成42.1 AP。值得注意的是,我们的方法是在logit而不是特征上操作的,这表明logit模仿并不次于特征模仿只要采取适当的蒸馏策略,比如我们的LD。此外,我们的方法与上述特征模拟方法正交。表3显示,通过这些特征模拟方法,我们的性能可以进一步提高。特别是GI模拟,我们将强GFocal基线提高了+2.3 AP和+3.1 AP 75。
我们进一步进行了实验,以检查分类分数和盒概率分布的平均误差,如图4所示。可以看出,细粒度特征模拟[54]和GI模拟[8]如预期那样减少了这两个错误,因为语义知识和定位知识混合在特征地图上。我们的“主LD”和“主LD+VLR LD”具有相当或更大的分类得分的平均误差比细粒度和GI模拟[8]的平均误差低,但盒概率分布的平均误差较低。这表明,仅使用LD的这两种设置可以显著减少教师和学生之间的盒概率分布距离,而它们不能减少分类头的这种误差是合理的。如果我们将分类KD强加给主蒸馏区,得到“主KD+主LD+VLR LD”,分类分数平均误差和盒概率分布平均误差都可以减小。
我们还可视化了学生和教师在P5和P6 FPN水平上每个位置的定位头对数的L1错误总和。在图5中,与“没有蒸馏”相比,我们可以看到GI模仿[8]确实减少了教师和学生之间的定位差异。请注意,我们特别选择了一个带有在可视化方面,AP性能优于GI模拟。我们的方法可以更显著地减少这种误差,并缓解定位模糊。
图5 最先进的功能模拟和我们的LD之间的视觉比较。我们展示了每个位置的L1误差总和
在P5(第一行)和P6(第二行)FPN级别,教师和学生之间的本地化头登录。老师是ResNet-101,学生是ResNet-50。我们可以看到,与GI模拟[8]相比,我们的方法(主LD+VLR LD)可以
大大减少了几乎所有位置的误差。颜色越深越好。以彩色观看效果最佳。
轻型探测器的LD。接下来,我们用分离蒸馏区的方式,即主KD+主LD+VLR LD,对轻型探测器进行验证。我们选择由mmDetection提供的44.7AP的ResNet-101作为我们的老师,来提取一系列轻量级学生。如表4所示,我们的LD可以稳定地将学生ResNet-18、ResNet-34、ResNet-50提高+1.7、+2.1、+2.0 AP和AP 75中的+2.2、+2.4、+2.4。从这些结果,我们可以得出结论,我们的LD可以稳定地提高所有学生的定位精度。
表4 轻型探测器LD的定量结果。教师是ResNet-101。结果在MS COCOval2017进行实验得出
扩展到其他密集物体探测器。我们的LD可以灵活地集成到其他密集对象检测器中,无论是基于锚点的还是无锚点的。我们将LD和分离蒸馏区的方式应用于几种最近流行的检测器,例如视网膜网(基于锚定)、FCOS[50](无锚定)和ATSS[66](锚定)。根据表5中的结果,LD可以用这些密集探测器持续改进∼2 AP。
表5.LD在各种常见密集物体探测器上的定量结果。老师是ResNet-101,学生是ResNet-50。
结果在MS COCOval2017进行实验得出
通过使用我们的LD进一步增强GFocalV2,我们将我们的LD与最先进的密集物体探测器进行了比较。对于COCO val2017,由于之前的大多数工作使用单尺度1×训练计划(12个阶段)的ResNet-50-FPN主干进行验证,我们还报告了该设置下的结果,以进行公平比较。对于COCO测试开发2019,在之前的工作之后,包括具有1333×[480:960]多尺度2×训练计划(24个阶段)的LD模型。训练在具有8个GPU的机器节点上进行,每个GPU使用2个批量,初始学习率为0.01,以进行公平比较。在推理过程中,采用单尺度测试([1333×800]分辨率)。对于不同的学生ResNet-50、ResNet-101和ResNeXt-101-32x4d-DCN[56,72],我们还分别选择不同的网络ResNet-101、ResNet-101-DCN和Res2Net101-DCN作为他们的老师。
如表6所示,当使用ResNet-50-FPN主干时,我们的LD将SOTA GFocalV2的AP分数提高了+1.6,将AP 75分数提高了+1.8。当使用具有多尺度2×训练的ResNet-101-FPN和ResNeXt-101-32x4d-DCN时,我们获得了最高的AP分数,分别为47.1和50.5,在相同的主干、颈部和测试设置下优于所有现有的密集对象检测器。更重要的是,我们的LD没有引入任何额外的网络参数或计算超头和超头可以保证与GFocalV2完全相同的推理速度。
表6 比较COCOVAL2017和test-dev2019的最新方法。TS:训练时间表。”1×':单尺度训练12个阶段2×':多尺度训练24个阶段。
在本文中,我们提出了一种用于密集目标检测的灵活定位提取方法,并设计了一个有价值的定位区域,以单独的提取区域的方式提取学生检测器。结果表明:1)logit模拟优于特征模拟;以及2)用于转移分类的分离蒸馏区方式在提取目标检测器时,定位知识非常重要。我们希望我们的方法能够为目标检测界开发更好的提取策略提供新的研究直觉。此外,LD在稀疏对象检测器(DETR系列)和其他相关领域的应用,例如实例分割、对象跟踪和三维对象检测,值得进一步研究。
以往的KD目标检测方法大多侧重于模仿模仿区域内的深层特征,而不是模仿分类logit ,因为其在提取定位信息方面效率低下,并且改进很小。
1.提出了一种新的定位提取方法(LD),可以有效地将定位知识从教师传递给学生 。
2.启发性地引入了有价值的定位区域(VLR) 的概念,可以帮助有选择地提取特定区域的语义和定位知识。
3.首次将这两个新组件结合起来,证明了logit模拟优于特征模拟,并且在提取目标检测器时,定位知识提取比语义知识更重要、更有效。
4.我们认为,基于各自的有利区域分别提取语义和定位知识可能是训练更好的目标检测器的一种有希望的方法。
问题1(定位):当物体的边缘不能可靠定位时,定位模糊仍然是一个常见的问题。对于轻型探测器来说,这个问题更为严重。
解决办法:缓解这一问题的一种方法是知识提取(KD),作为一种模型压缩技术,它已被广泛验证,可以通过传输大型教师网络捕获的广义知识来提高小型学生网络的性能。
问题2(语义):原始的logit模拟分类技术效率低下,因为它只传递语义知识(即分类),而忽略了局部知识提取的重要性。
常用解决办法:现有的KD目标检测方法大多侧重于增强师生对之间深度特征的一致性,并利用各种蒸馏模拟区域。
新的问题:然而,由于语义知识和定位知识在特征地图上是混合的,很难判断在每个位置转移混合知识是否有利于性能,以及哪些区域有利于特定类型知识的转移。
方法:
1.基于上述问题,在本文中,我们提出了一种新的分而治之的提取策略,而不是简单地在特征地图上提取混合知识,该策略分别传递语义和定位知识。
2.对于语义知识,我们使用原始分类KD。把用于分类head的KD(知识蒸馏),用于目标检测的定位head,即有了LD (Localization Distillation)。
3.对于定位知识,我们重新描述了定位上的知识传递过程,并通过将边界框切换到概率分布,提出了一种简单而有效的定位提取(LD)方法。
4.此外,在提出的分治提取策略的基础上,我们进一步引入了有价值的局部区域(VLR) ,以帮助有效地判断哪些区域有利于分类或局部学习。
首先,将边界框表示转换为概率分布。
然后,我们通过对主蒸馏区域和有价值的局部区域进行区域加权来确定提取位置。
最后,我们计算了教师和学生预测的两个概率分布之间的LD损失。
4.边界框B的所有四条边的Ld可以公式化(蒸馏损失)
我们的LD是首次尝试采用logit模拟来提取用于目标检测的定位知识。我们将盒子的概率分布表示和KL发散损失相结合,并证明这种简单的logit模拟技术在提高目标检测器的蒸馏效率方面表现良好。
5.有价值的局部化区域(VLR):利用算法1获得有价值的定位区域,以进一步提高蒸馏效率
6.训练学生的总损失:
L cls是分类损失,L reg是包围盒回归损失,L DFL是分布焦点损失。I Main和I VL分别是主蒸馏区域和有价值定位区域的蒸馏掩码,L KD是KD损失,C S和C T分别表示学生和教师的分类头输出对数,C gt是基本真值类标签。所有蒸馏损失将根据其类型由相同的权重因子加权
知识蒸馏(Knowledge Distillation): KD最开始用于图像分类,思想就是用一个预训练的大模型(teacher)去训练一个小模型(student)的学习,使得轻量级的学生(student)能够模仿高性能的教师,从而提高学生的性能。
语义:文中说的特定区域的语义,即为该区域转化为数据后的含义
bbox:对目标进行检测时,在原图上会生成若干个边界矩形框(bounding box)即bbox。
伪BBox回归:学生将教师预测的边界框作为额外的回归目标