知识蒸馏论文的一些自己总结

本文只是对论文的一些总结,不关注于具体细节公式,主要是了解思想,如果有空我会专门的开博客对一些论文进行细节讲述,如果本文说明有问题的,欢迎联系我,欢迎指正。

一. Attention Transfer

Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer:https://arxiv.org/abs/1612.03928

该文章启发于CNN中的注意力机制,利用teacher模型的中间层生成空间注意力图(spatial-attention),是一种热力图,图像中越感兴趣的地区颜色越红。

 

知识蒸馏论文的一些自己总结_第1张图片

和大部分的知识蒸馏方式相同,教师网络通过生成的注意力图(attentior map)来指导学生网络的注意力图学习,通过attention transfer 缩小学生attentior map 和教师网络attentior map 的距离使得学生网络学习到教师网络的注意力图。这样学生网络学习到了这些知识,便能够生成尽可能与教师网络相似的特征图。

这边提一点,在学习中间层特征图,不管是热力图,注意力图还是普通的特征图,两个网络在这个地方的大小是一致的,这样才能通过距离度量计算特征图的距离。

本文提出了两种spatial-attention方式,第一种是基于响应图的,第二种是基于梯度图的。

(小疑问:使用热力图和直接使用特征图有什么区别,是否这个是这个热力图起了作用还是特征图起了作用 hint loss,等待后面的实验论证)

 

二.object detection distillation

Learning Efficient Object Detection Models with Knowledge Distillation

该论文提出将分类任务的知识蒸馏方法扩展到目标检测任务。在该方法中,汇集知识蒸馏的基本方法。

1.特征蒸馏,hint learning。使用教师模型的特征图指导学生模型特征图,计算两个模型特征图距离,使得学生网络在学习过程中,生成的特征图尽可能接近于教师模型的特征图。

2.分类的交叉熵损失,计算教师模型和学生模型预测结果分类结果的交叉熵损失,使得学生模型能够在教师模型的指导下学习到bounding box的类别信息,学生模型可以学习到复杂的教师模型生成的分类信息。

知识蒸馏论文的一些自己总结_第2张图片

本文虽然使用了bounding box回归信息,但是对模型的提升没有很大帮助,这里就不赘述了。

未完待续。。。。。。

 

 

 

你可能感兴趣的:(知识蒸馏)