【论文速递】TPAMI2023 - 基于关系匹配的广义知识蒸馏

【论文速递】TPAMI2023 - 基于关系匹配的广义知识蒸馏

【论文原文】:Generalized Knowledge Distillation via Relationship Matching

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9737403 

博主关键词: 广义知识蒸馏,GKD,实例关系匹配

推荐相关论文:

-无

摘要:

训练有素的深度神经网络(又名“老师”)的知识对于学习类似的任务很有价值。知识蒸馏从教师那里提取知识,并将其与目标模型(又称“学生”)整合,从而扩展学生的知识并提高其学习效率。我们不是强迫老师和学生一起完成同样的任务,而是从通用标签空间训练教师并提取它的知识 ——在这个“广义知识蒸馏(GKD)”中,老师和学生的类别可能相同、完全不同或部分重叠。我们声称实例之间的比较能力是跨任务传递知识的基本因素,并提出了一种相互关联的局部半分类器蒸馏(REFILLED)方法,该方法解耦了嵌入的GKD流和顶层分类器。特别是,不同于协调模型之间的实例标签置信度,REFILLED 要求老师重新加权学生前向传播的hard tuples,然后匹配实例之间的相似性比较级别。基于教师模型的嵌入诱导分类器对学生的分类信心进行监督,并自适应地强调与教师最相关的监督。当教师的类别从相同到完全不重叠的集合w.r.t.时,REFILLED 表现出很强的辨别能力。学生还在标准知识蒸馏、一步增量学习和小样本学习任务方面实现了最先进的性能。

关键词 :广义知识蒸馏,GKD,实例关系匹配。

简介:

监督深度学习在各个领域都取得了成功[1]。给定目标任务中的实例和相应的注释,我们训练一个深度神经网络,以最小化模型预测和真实标签之间的差异。知识蒸馏(KD)[2],[3],[4]通过利用来自另一个训练良好的模型的“黑暗知识”,促进了深度神经网络的学习效率。 具体来说,一个强大的分类器,例如,用更深层次的架构[5]、高质量图像[6]或精确的优化策略[7]、[8]训练的神经网络,充当“老师”,通过更丰富的监督指导“学生”模型的训练,以便相关任务的学习经验在当前任务中重用。KD提高了目标学生模型的判别能力[9],[10],减轻了模型存储的负担[3],[4],[5],[7],[11],[12],并能够在低资源环境中训练深度神经网络[13],[14]。KD的应用在广泛的领域得到了见证,例如模型/数据集压缩[15],[16],[17],[18],[19],[20],多任务学习[21],[22]和增量图像分类[23],[24]。

教师对实例的类别后验概率是最常见的暗知识,因为它表明教师对实例与候选类别的相似程度的估计。除了极端的“非黑即白”监督外,还要求学生在训练过程中将其后部与老师对齐。尽管预测匹配允许知识在不同的架构之间转移[3],[17],但它对实例标签关系的依赖将教师和学生限制在相同的标签空间中。

我们强调使用普通教师的必要性,并将KD扩展到更实际的应用。换句话说,相关教师不应仅限于拥有与目标任务完全相同的类别。例如,重复使用训练有素的动物分类模型来帮助在细粒度鸟类上训练学生模型是很直观的。在跨任务KD中,学生从在相关但不重叠的标签空间上接受训练的教师那里蒸馏知识,其中教师和学生之间的标签差异阻碍了学习体验的过渡[25]。广义知识蒸馏 (GKD) 是标准 KD 和跨任务 KD 的一般情况,其中教师可以与学生拥有相同、完全不同或部分重叠的类别。图例 1 说明了 KD 变体的概念。
【论文速递】TPAMI2023 - 基于关系匹配的广义知识蒸馏_第1张图片

Fig. 1. An illustration of strengthening a student model on the target task via distilling the knowledge from a teacher model. .

comparison ability - 根据嵌入测量两个实例之间的相似性水平 - 捕获了模型的一种不变性[26],并且不受标签约束[25],[27],[28]的影响。 对于分别辨别“哈士奇与伯曼”和“贵宾犬与波斯”的教师和学生来说,教师编码“狗猫”相关特征的判别性嵌入可以在学生的任务中比较贵宾犬/波斯犬,应该有助于学生的训练。我们希望学生从教师的知识中受益,如果他们是相关的,即教师的比较能力适合学生的任务。否则,学生的表现将与没有老师训练的学生一样好。因此,我们将GKD中的知识转移与实例关系联系起来,并通过利用教师的比较能力为嵌入和顶层分类器线程化知识重用。

为此,我们提出了一种基于当前任务数据和训练有素的教师的两阶段方法RElationship FacIlitated L ocal cLassifiEr Dstillation(ReFilled)。首先,强调嵌入的判别能力。对于那些由学生嵌入确定的硬相似元组,教师如何比较它们充当额外的监督。换句话说,教师通过指定对象的冒名顶替者应该远离其目标最近邻的程度来促进学生嵌入的判别能力。教师的实例知识是通过匹配比较来提炼的。然后,教师构建软监督,根据实例与嵌入中心之间的相似性对每个实例进行分类,消除标签空间之间的限制。具体来说,学生的分类置信度与教师嵌入诱导的“实例标签”预测一致。监督的强度自动由教师和学生之间的相关性加权。

实证结果验证了REFILLED有效地将分类能力从教师的各种配置传递给学生,包括具有相同、不同和部分重叠标签空间的教师。ReFILLED在一步增量学习、Few-shotting learning和middle-shotting learning问题方面也优于最近的方法。总之,我们的贡献是:

  • 我们研究GKD,通过重用训练有素的老师的知识来提高深度神经网络的训练效率,而没有标签限制。

  • 我们建议REFILLED,它将模型之间的高阶比较与本地对齐,并自适应地对老师最有用的监督进行加权。

  • ReFill 在广义 KD、增量学习和小样本学习基准测试中效果很好。

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper

你可能感兴趣的:(论文速递,深度学习,人工智能,机器学习)