2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记

论文笔记《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》

    • 摘要
    • 问题
        • 1.Channel Distillation (CD)渠道蒸馏
        • 2.Guided Knowledge Distillation (GKD)知识引导蒸馏
        • 3.Early Decay Teacher (EDT)早期教师的衰减
        • 4.损失函数
    • 实验

  论文地址:Channel Distillation: Channel-Wise Attention for Knowledge Distillation, Zaida Zhou, Chaoran Zhuge, Xinwei Guan, Wen Liu, 2020.

摘要

  In this paper, we propose a new distillation method, which contains two transfer distillation strategies and a loss decay strategy.
 本文提出了两种传输蒸馏策略和一种损失衰减策略。

  • Channel Distillation (CD)渠道蒸馏
  • Guided Knowledge Distillation (GKD)知识引导蒸馏
  • Early Decay Teacher (EDT)早期教师的衰减
    在这里插入图片描述

问题

  1. 知识传输过程不够准确--------(CD)
  2. 教师网络预测存在的误差---------(GKD)
  3. 教师学生网络结构不同,用老师监督学生,可能找不到学生的优化空间----------(EDT)

1.Channel Distillation (CD)渠道蒸馏

图片
  wc是特征图第c个通道所有激活值的和,H、W是特征图的长宽。

  教师和学生的特征图大小不同,用1*1卷积核提升学生的维度。然后进行CD操作。

2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记_第1张图片
  定义CD,其中wij表示第i个样本对应的特征图第j个通道。

在这里插入图片描述

2.Guided Knowledge Distillation (GKD)知识引导蒸馏

  GKD是在KD(知识蒸馏)的基础上,只用教师预测正确的数据作为指导。

2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记_第2张图片

  KD(知识蒸馏)公式如上,T表示温度。用KL散度刻画学生和老师输出分布差距。

在这里插入图片描述
  其中I是指示函数。GKD只累计老师预测正确的样本。这是因为在一些训练集中,样本的类别高达上万个,普遍预测模型正确的概率也仅有25%左右,所以教师网络出错概率很大(不同数据集上检测结果不同,这里25%指JFT数据集的预测)。

在这里插入图片描述

3.Early Decay Teacher (EDT)早期教师的衰减

  教师网络监督学生网络训练,但在后期会一定程度的抑制学生学习,故需要慢慢衰减教师的监控力度。因子定义如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.损失函数

  整合前面1,2,3部分得到总的损失函数:

在这里插入图片描述
在这里插入图片描述
  只衰减CD损失,其中GKD损失是正确的预测,故不衰减GKD。
在这里插入图片描述
  整个过程如下:
2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记_第3张图片
在这里插入图片描述

实验

  数据集:ImageNet,选取类1000个

  模型:ResNet18(学生),ResNet34(老师)
2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记_第4张图片
在这里插入图片描述
  数据集:CIFAR100,选取类100(个人感觉实验数据的分类较少)
  模型:ResNet152(学生),ResNet50(老师)
2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记_第5张图片
在这里插入图片描述

  数据集:ImageNet
  模型:ResNet152(学生),ResNet50(老师)

2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记_第6张图片
  结果达到了公认水平,出错率达到了最低。

论文地址:2020 Channel Distillation: Channel-Wise Attention for Knowledge Distillation.

你可能感兴趣的:(知识蒸馏,论文笔记,迁移学习,深度学习,机器学习,网络,人工智能,神经网络)