知识蒸馏综述---代码整理

本文尽可能简单解释蒸馏用到的策略,并提供了实现源码。
1、KD: Knowledge Distillation
链接:https://arxiv.org/pdf/1503.02531.pd3f
发表:NIPS14

最经典的,也是明确提出知识蒸馏概念的工作,通过使用带温度的softmax函数来软化教师网络的逻辑层输出作为学生网络的监督信息,
在这里插入图片描述
使用KL divergence来衡量学生网络与教师网络的差异,具体流程如下图所示:
知识蒸馏综述---代码整理_第1张图片
对学生网络来说,一部分监督信息来自hard label标签,另一部分来自教师网络提供的soft label。
代码实现:

class DistillKL(nn.Module):
    """

你可能感兴趣的:(模型部署,python,知识蒸馏)