Channel-wise Knowledge Distillation for Dense Prediction

地址:https://arxiv.org/pdf/2011.13256.pdf      发布:ICCV2021

代码:https://git.io/Distiller

编辑:牛涛

将中间特征作为知识传授给学生网络已经被验证有效,但是直接对齐可能会强制学生网络模拟教师,相当于加上了十分苛刻的约束,可能会导致次优解。

在分割任务中,特征图的不同通道侧重于关注图像的不同区域(比如前景和背景),因此对特征图做通道蒸馏,具体方法如下图:

传统的空间域蒸馏如(a),在本文中首先对每个channel做softmax归一化,然后按通道计算教师和学生的KL散度作为loss

softmax归一化
KL散度计算

值得一提的是,在计算KL散度时只除以C,不知道这样是不是意味着loss反映的是整个空间域level的相似?不知道和对H*W取均值的方法有什么区别。

实验结果:待补充

你可能感兴趣的:(Channel-wise Knowledge Distillation for Dense Prediction)