模型优化论文笔记6----MobileNets采用深度可分离卷积在权衡精度的同时减小模型尺寸和时延

《MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications》
论文地址:https://arxiv.org/abs/1704.04861
MXNet框架代码:https://github.com/miraclewkf/mobilenet-MXNet

1.主要思想
介绍了两种简单的全局超参数用以平衡时延和准确率,构建出尺寸较小、时延较低的模型用以匹配移动嵌入式设备。
本篇着重于优化时延的同时产出小型网络。
2.背景介绍
更深更复杂的网络往往不能兼顾尺寸和速度,然而识别任务多要求在计算受限平台上实时处理。
先前工作可分为压缩预训练模型和训练较小网络。
一些获取小型网络的方法有剪枝,向量因式分解,哈夫曼编码(应用于文本中),蒸馏,以及低比特。
3.depthwise separable convolution
MobileNets主要由depthwise分离卷积组成(这种卷积随后应用到inception中用以减少前几层的计算。)
文章将标准卷积因式分解为一个depthwise卷积和一个1x1卷积(叫做pointwise)。depthwise 卷积对每个输入通道input channel采用单一滤波器filter,pointwise卷积则采用1x1卷积用以融合depthwise的输出。
这点与标准卷积不同,标准卷积将过滤与融合合并为一步,本文depthwise separable则是将其拆分为两层,一层用以filter过滤,一层用以combine,这种做法可以减少计算量和模型尺寸。此外,每一层均采用batchnorm和ReLU非线性激活。
标准卷积将 D F × D F × M D_F \times D_F \times M DF×DF×M特征图转换为 D G × D G × N D_G \times D_G \times N DG×DG×N特征图, D F D_F DF D G D_G DG

你可能感兴趣的:(模型优化,卷积神经网络,深度学习)