【论文笔记】Distilling the Knowledge in a Neural Network

Distilling the Knowledge in a Neural Network

作者表明,通过让较小的模型直接从集成的“软目标”(高温下的softmax输出)中学习,可以将复杂模型的知识提炼为较小的模型。从直觉上讲,这是可行的,因为概率分配中的错误(例如,将0.1%分配给错误的类别)携带了大量有关网络学习内容的信息。像以前的论文一样,直接从logit(未归一化的分数)中学习是蒸馏方法的特例。作者展示了蒸馏如何在MNIST和ASR数据集上工作。

关键点

  • 可以使用未标记的数据来传递知识,但是在实践中使用相同的训练数据似乎效果很好。
  • 在温度下使用softmax,根据问题,从1到10的值似乎效果很好。
  • MNIST网络仅基于教师网络造成的“错误”就学会了识别数字而从未见过基础。 (偏差需要调整)
  • 对具有较少数据的软目标进行培训要比对具有相同数据量的硬目标进行培训要好得多。

注释/问题

  • 如果不将专家分解为一个模型,那么将这些复杂的模型分解为专家并不是真正适合本文。还希望看到仅对专家进行培训(没有通用网络),然后提取他们的知识。

你可能感兴趣的:(深度学习,神经网络,自然语言处理)