【论文笔记_知识蒸馏_2019】Variational Information Distillation for Knowledge Transfer
摘要将在相同或类似任务上预训练的教师神经网络的知识转移到学生神经网络中,可以显著提高学生神经网络的性能。现有的知识转移方法与教师和学生网络的激活或相应的手工制作的特征相匹配。我们提出了一个知识转移的信息理论框架,该框架将知识转移表述为教师和学生网络之间相互信息的最大化。我们将我们的方法与现有的知识转移方法在知识提炼和转移学习任务上进行了比较,结果表明我们的方法一直优于现有的方法。我们通过在CIFA