结合量化的知识蒸馏(Quantization Mimic)

"Quantization Mimic Towards Very Tiny CNN for Object Detection"这篇文章通过将知识蒸馏(Knowledge Distillation)与量化技术(Model Quantization)有效结合,能够诱导训练生成纤细、但性能良好的目标检测网络(主干网络通道数少、层数浅的R-FCN或Faster RCNN)。Quantization Mimic中量化技术能够缩小参数搜索空间,从而带来正则化效应,有效降低过拟合;而知识蒸馏则负责将复杂教师网络的知识迁移至学生网络。

结合量化的知识蒸馏(Quantization Mimic)_第1张图片

Quantization Mimic的整体框架如上图所示,首先训练一个性能优越的全精度教师网络(如R-FCN-VGG);再将教师网络予以量化,获得量化后的Feature Maps输出;然后设计一个纤细的学生网络(如R-FCN-VGG-1-32),并予以量化;最后在诱导训练期间,比较教师网络与学生网络的量化输出(即L2 loss),完成知识迁移。

量化技术选择线性均匀方式,原因在于文章以R-FCN或Faster-RCNN作为benchmark,而这两种检测网络更关注ROI内部的激活响应,通常这些响应比较剧烈,因此均匀量化能够更好地保留输出信息。反观INQ采用的非均匀量化能够更好地描述一般性的激活或权重分布(非均匀、近高斯分布)。文章采用的量化表示如下:

结合量化的知识蒸馏(Quantization Mimic)_第2张图片

引入知识蒸馏之后,全精度形式的总loss如下:

结合量化的知识蒸馏(Quantization Mimic)_第3张图片

上式中,Lm表示教师网络与学生网络中RPN输出的ROI范围内Feature Maps之间的L2 Loss(Hint within ROIs),其量化形式如下:

为了能够让tiny network输出的FMs与teacher network输出的FMs相匹配(维度匹配),需要将低维度流形通过量化推至高纬度离散空间,具体如下:

结合量化的知识蒸馏(Quantization Mimic)_第4张图片

文章最后通过Quantization Mimic取得了良好的量化与迁移效果,尤其是教师网络与学生网络均予以量化的情况下,具体见文章实验部分。

Paper链接:https://arxiv.org/abs/1805.02152

你可能感兴趣的:(深度学习,模型压缩,优化加速)