(DR-KD)Regularizing Class-wise Predictions via Self-knowledge Distillation

发布平台:2020CVPR

论文链接:https://ieeexplore.ieee.org/document/9157224

代码链接:https://github.com/alinlab/cs-kd

创新点

提出一种新的正则化方法来惩罚相似样本之间的预测分布,在训练过程中提取了同一标签的不同样本之间的预测分布,迫使它以类的方式产生更有意义的和一致的预测(通过约束相同类别的样本要输出尽可能相似的结果)。减轻了过度自信的预测,并减少了类内的变化。

传统正则化:基于图像输出的正则化。
本文正则化:基于类的输出正则化,即选取相同类别的不同图像。

传统知识蒸馏:利用相同样本经过两个网络(教师和学生)的输出。
本文知识蒸馏:利用相同类的不同样本经过相同网络的输出。

损失函数

在这里插入图片描述
输入在这里插入图片描述和另一个随机采样的 在这里插入图片描述具有相同的标签在这里插入图片描述在这里插入图片描述在这里插入图片描述表示相同的标签文件

KL表示Kullback-Leibler(KL)散度。

举例:在这里插入图片描述在这里插入图片描述都是两张的照片,具有相同的类别,具体的猫的大小、位置、品种、颜色…可以不同。

总损失

在这里插入图片描述
Lce是标准交叉熵损失,λcls>0是类正则化的损失权重。注意,我们将温度t2的平方乘以原始KD。

你可能感兴趣的:(知识蒸馏,神经网络)