VanillaKD:Revisit the Power of Vanilla KnowledgeDistillation from Small Scale to Large Scale 中文版
论文原地址:https://arxiv.org/abs/2305.15781摘要近年来,深度学习在计算机视觉领域取得了显著进展,模型的能力和容量不断增加[1,2,3,4,5]。实现更好性能的主流方法的理念是“越大越好”,这可从不断增加深度[2,6,7,8]和宽度[9,10]的模型取得的成功得以证实。然而,这些庞大的模型拥有大量参数,难以部署在计算资源有限的边缘设备上,例如手机和自动驾驶汽车。为了克