蒸馏法文章选读——Correlation Congruence for Knowledge Distillation
7,CorrelationCongruenceforKnowledgeDistillationhttps://arxiv.org/abs/1904.018021),创新点:原始的蒸馏法只是用学生网络的某个向量去拟合教师网络的该向量,无论是kl散度还是欧式距离,只是向量之间的映射;但是由于教师网络和学生网络本来的差异性,所以不应该仅仅学习教师网络和学生网络单个样本向量间差异,还应该学习这两个样本间的