知识蒸馏测试(使用ImageNet中的1000类dog数据,Resnet101和Resnet18分别做教师模型和学生模型)
当教师网络为resnet101,学生网络为resnet18时:使用蒸馏方法训练的resnet18训练准确率都小于单独训练resnet18,使用蒸馏方法反而导致了下降。当hard_loss的alpha为0.7时,下降了1.1当hard_loss的alpha为0.6时,下降了1.7说明当学生网络和教师网络训练准确率相差不多时,要给hard_loss权重大一点。VanillaKD:RevisittheP