【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION

请添加图片描述

摘要

知识蒸馏最初是为了利用单个教师模型的额外监督来进行学生模型培训。为了提高学生的表现,最近的一些变体试图利用来自多名教师的不同知识来源。然而,现有的研究主要通过对多个教师预测进行平均或使用其他无标签策略将它们结合起来,从而整合来自不同来源的知识,这可能会在低质量教师预测的情况下误导学生。为了解决这个问题,我们提出了基于置信度的多教师知识提取(CA-MKD),该方法在真实标签的帮助下,自适应地为每个教师预测分配样本可靠度,并为那些接近一个热标签的教师预测分配较大的权重。此外,CA-MKD还结合了中间层的特征,以稳定知识转移过程。大量的实验表明,我们的CA-MKD在各种师生体系结构中始终优于所有比较先进的方法。代码如下: https://github.com/Rorozhl/CA-MKD.

1.介绍

如今,深度神经网络在各种应用中取得了前所未有的成功[1,2,3]。然而,这些需要大量内存和计算资源的复杂模型很难应用于嵌入式设备。因此,知识蒸馏(KD)被提出作为一种模型压缩技术来解决这个问题,它通过从预先训练过的笨重教师模型中提取知识来提高轻量级学生模型的准确性[4]。转移的知识最初被形式化为教师模型[4]的softmax输出(软目标),而后者扩展到中级教师层,以实现更好的表现[5、6、7]。
【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION_第1张图片
图1。比较之前的平均方向(绿线)和我们提出的信心感知方向(红线)。

由于大众的智慧超过了最聪明的个人,因此提出了一些多教师知识蒸馏(MKD)方法,并已被证明是有益的[8,9,10,11,12]。基本上,他们将来自多个教师的预测与固定权重分配[8,9,10]或其他各种无标签方案相结合,例如基于优化问题或熵准则[11,12]计算权重。然而,固定权重无法区分高质量教师和低质量教师[8,9,10],而其他计划可能会在低质量的教师预测面前误导学生[11,12]。图1提供了一个关于这个问题的直观说明,一旦大多数教师的预测有偏差,使用平均权重策略训练的学生可能会偏离正确的方向。

幸运的是,我们实际上手头有真实标签,可以量化我们对教师预测的置信度,然后过滤掉低质量的预测,以便更好地培训学生。为此,我们提出了基于置信度的多教师知识提取(CA-MKD),通过考虑教师的预测置信度来学习样本权重,实现自适应知识整合。置信度是基于预测分布和地面真值标签之间的交叉熵损失得到的。与之前的无标签加权策略相比,我们的技术使学生能够从相对正确的方向学习。

请注意,我们的置信度机制不仅能够根据不同教师的样本置信度自适应地加权预测,而且还可以扩展到中间层的学生-教师特征对。借助我们生成的灵活有效的权重,我们可以避免那些主导知识转移过程的糟糕的教师预测,并在八种师生架构组合上显著提高学生的表现(如表1和表3所示)。

2.相关工作

知识蒸馏:

多教师知识蒸馏:MKD没有选择一位老师,而是通过整合多位老师的预测来提高蒸馏的有效性。提出了一系列方法,例如简单地为不同的教师分配平均权重或其他固定权重[8,9,10],并基于熵[12]、潜在因子[18]或梯度空间中的多目标优化[11]计算权重。然而,这些无标签策略可能会在低质量预测的情况下误导学生培训。例如,基于熵的策略更倾向于盲目相信的模型,因为它有利于低方差的预测[12];基于优化的策略有利于大多数人的意见,并且容易被嘈杂的数据误导[11]。相比之下,我们的CA-MKD基于真实标签量化了教师的预测,并进一步提高了学生的表现。

3.方法

我们将D={xi,yi}Ni表示为标记的训练集,N是样本数,K是教师数。F∈ R(h×w×c)是最后一个网络块的输出。我们将z=[z1,…,zC]表示为logits输出,其中C是类别序号。最终的模型预测是通过温度为τ的softmax函数请添加图片描述得到的。在以下部分中,我们将详细介绍我们的CA-MKD。

3.1教师预测的loss

为了有效地聚合多个教师的预测分布,我们通过计算教师预测和真实标签之间的交叉熵损失来分配不同的权重,以反映其样本置信度 :【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION_第2张图片
其中,Tk表示第k个教师。L k CE KD越小,w k KD越大。教师的总体预测是由计算得到的权重聚合而成的:
请添加图片描述
根据上述公式,预测更接近真实标签的教师将被分配更大的权重wkKD,因为它有足够的信心做出正确的判断,以获得正确的指导。相比之下,如果我们只是通过计算教师预测的熵来获得权重[12],那么当输出分布尖锐时,无论最高概率类别是否正确,权重都会变大。在这种情况下,这些有偏见的目标可能会误导学生的训练,并进一步损害其蒸馏性能。

【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION_第3张图片
图2。我们的CA-MKD概述。教师预测和中级教师特征的权重计算分别用红线和绿线表示。

3.2中级教师特征的loss

除了受FitNets[5]启发的KD Loss外,我们认为中间层也有利于学习结构知识,因此我们将方法扩展到中间层,以挖掘更多信息。中间特征匹配的计算如下所示 :【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION_第4张图片
其中W Tk是第k个教师的最终分类器。hS∈ Rc是最后一个学生特征向量,hS=AvgPooling(FS)。请添加图片描述是通过将hS传递给每个教师分类器来获得的。w k inter的计算与w k KD的计算类似。

为了稳定知识转移过程,我们将学生设计成更专注于模仿具有相似特征空间的教师,w k inter实际上是一个相似性度量,表示教师分类器在学生特征空间中的可辨别性。研究还表明,利用w k inter代替W KD在中间层进行知识聚合更有效。
请添加图片描述
其中r(·)是一个用于对齐学生和教师特征尺寸的函数。L2损失用作中间特征的距离度量。最后,特征对之间的总体训练损失将由wkinter汇总。在我们的工作中,只采用最后一个块的输出特征,以避免产生太多的计算开销。

3.3总体损失函数

除了上述两种损失,还计算了与真实标签的常规交叉熵:
请添加图片描述
CA-MKD的总体损失函数总结如下:
请添加图片描述
其中α和β是超参数,用于平衡知识蒸馏和标准交叉熵损失的影响。

4.实验

表1。CA-MKD与提取具有相同体系结构的多名教师的知识的知识蒸馏的TOP-1精度对比。
【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION_第5张图片
表2.CA-MKD方法与单教师蒸馏的TOP-1精度对比。
【论文笔记_多教师知识蒸馏_2022】CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION_第6张图片
…见原文

5.结论

在这篇文章中,我们在多教师知识提炼的预测和中间特征上引入了置信度机制。教师的信心是基于他们的预测或特征与每个训练样本的可靠性识别的真实标签之间的接近度来计算的。在标签的指导下,我们的技术有效地整合了来自多个教师的各种知识,用于学生训练。大量的实证结果表明,我们的方法在各种师生结构中都优于所有竞争对手。

你可能感兴趣的:(个人学习_研究生,计算机视觉,深度学习,神经网络)