Abstract
一、Introduction
二、Methodology
2.1Contrastive Prediction as Self-Supervision Task对比预测作为自我监督任务
2.2Learning SSKD
3.2Imperfect Self-Supervised Predictions不完美的自我监督预测
总结
1.希望探索一个更普遍和模型不可知论的方法,从预先训练的教师模型中提取“更丰富的黑暗知识”,看似不同的自我监督任务可以作为一个简单而有力的解决方案
例如:在转换后的实体之间进行对比学习时,教师网络的噪声预测反映了其语义和姿态信息的内在组成。利用这些自我监督信号之间的相似性作为辅助任务,可以有效地将隐藏信息从教师传递给学生
2.本文讨论了利用具有选择性转移的噪声自监督信号进行蒸馏的实用方法
进一步表明,在few-shot和噪声标签的情况下,自我监督信号提高了传统蒸馏的显著收益。
Hinton:提高最终softmax的温度,产生教师的软目标,以指导学生的训练。通过最小化教师和学生产出之间的Kullback-Leibler (KL)差异来实现指导
隐藏在这些次要概率中的知识有时被称为“暗知识”
为了挖掘更丰富的暗知识→在原有的分类任务之外再增加一个辅助任务→从而提取出对分类知识补充的更丰富的信息。
in this study:我们展示了一种看似不同的学习方案——自我监督学习,当被视为辅助任务时,可以帮助从教师网络中获得更全面的知识。自我监督学习的最初目的是通过一个托辞任务从数据中学习具有自然监督的表示
将自监督学习作为知识蒸馏的辅助任务,可以将借口任务应用到教师身上,方法是在教师的主干上附加一个轻量级辅助分支/模块,将主干冻结后更新辅助模块,然后从辅助模块中提取相应的自监督信号进行蒸馏。
fig1.difference between conventional KD and SSKD
我们将对正常数据和单一分类任务的模拟扩展到对转换后数据的模拟,并增加了一个自我监督借口任务。教师的自我监督预测包含了丰富的结构化知识,有助于对学生进行更全面的知识蒸馏。在本例中,对转换后的图像进行对比学习作为自我监督的托词任务。通过图像变换t(·)构造单个正对和多个负对,然后鼓励网络识别正对。教师和学生的主干分别表示为ft和fs,相应的输出表示为t和s,下标表示索引。
SSKD将这一概念扩展到更广的范围,即对转换后的数据和附加的自我监督借口任务进行模仿。这使得学生能够从教师的自我监督预测中捕捉到更丰富的结构化知识,而这是单个任务无法充分捕捉到的。我们证明,这样的结构化知识不仅提高了整体的蒸馏性能,而且还使学生在少镜头和噪声标签的情况下进行更好的归纳
SSKD的另一个优点是它与模型无关。以前的知识蒸馏方法在跨体系结构设置下性能下降,因为它们转移的知识是非常特定于体系结构的。相比之下,SSKD只转移最后一层的输出,因此为学生模型提供了更灵活的解决方案空间,以搜索最适合自己体系结构的中间表示。
本研究将教师的特征奇异向量相关图视为自监督标签。标签是从老师那里获得的,而不是一个自我监督的借口任务。因此,他们对自我监督学习的概念与传统的不同
2.1知识蒸馏和自我监督
2.2规定了教师和学生模型的训练过程
2.3讨论噪声自监督预测的影响以及处理噪声的方法
基于对比预测方法在自我监督学习方面的成功,我们在框架中采用对比预测作为自我监督任务。对比预测的一般目标是通过潜在空间的对比损失来最大限度地提高数据点与其转换后的版本之间的一致性
fig.2 training scheme of SSKD
SSKD的框架如图2所示。教师和学生都由三个部分组成:提取表示的骨干f(·),用于主要任务的分类器p(·)和用于特定自我监督任务的自我监督(SS)模块。本文选择对比预测作为SS任务,因此SS模块ct(·,·)和cs(·,·)由一个2层MLP和一个相似度计算模块组成
输入图像通过指定的转换进行转换,为自我监督任务准备数据。教师培训分为两个阶段。第一阶段用分类任务训练ft(·)和pt(·),第二阶段用自我监督任务调整ct(·,·)。在学生的训练中,除了标准标签的丢失外,我们还强迫学生模仿老师的分类输出和自我监督输出
这两个阶段的训练有不同的作用。第一个阶段是典型的网络分类训练。第二阶段,对SS模块进行改进,利用现有主干的特征进行对比预测。这允许我们从SS模块中提取知识进行蒸馏。
老师分配给错误答案的相对概率包含了老师丰富的知识。传递这种不准确但结构化的知识是我们SSKD的核心。
在本研究中,我们首次尝试将自我监督与知识蒸馏相结合,提出了一个新的框架SSKD。它采用对比预测作为辅助任务,帮助从教师网络中提取更丰富的知识。设计了一种选择性转移策略来抑制教师知识中的噪声。我们通过在CIFAR100和使用各种架构的ImageNet上进行彻底的实验来检验我们的方法。我们的方法实现了最先进的性能,证明了我们方法的有效性。进一步的分析表明,我们的SSKD可以使学生更接近老师,在少镜头和噪声标签的情况下工作良好。