Tap into the dark knowledge using neural nets — Knowledge distillation知识蒸馏
动机:任何机器学习/人工智能模型的主要目标都取决于它在看不见的数据上的概括能力,而不是在训练数据上的表现。如果我们更仔细地研究这个目标,我们更倾向于使用不同的模型来适应训练和推理的目的。在训练过程中,我们需要深入而复杂的模型来训练大量的训练数据,但是在推理过程中,我们只需要一个更轻量级的模型来很好地概括任何看不见的数据。较轻的模型在生产推理过程中具有较好的性能。因此,本文的上下文设置是为了看看是否