(科普快餐)语义分割经典论文--5:MobileNets

MobileNets: Effificient Convolutional Neural Networks for Mobile Vision Applications(2017)

论文地址:https://arxiv.org/pdf/1704.04861.pdf​arxiv.org


核心:深度可分离卷积

深度可分离卷积介绍:

逐通道卷积(Depthwise Convolution)+ 逐点卷积(Pointwise Convolution)

(科普快餐)语义分割经典论文--5:MobileNets_第1张图片

 MobileNet模型基于深度可分离卷积,这是一种分解卷积的形式,它将标准卷积分解为深度卷积和一个称为逐点卷积的1×1卷积。对于mobilenet,深度卷积对每个输入通道应用一个滤波器。然后逐点卷积应用一个1×1的卷积将深度卷积的输出结合起来。一个标准的卷积可以在一步内将输入和输入组合成一组新的输出。深度可分离卷积将其分为两层,分别用于滤波和合并。这种因子分解具有显著减少计算量和模型大小的效果。下面的图显示了如何将标准卷积是如何分解为深度卷积和1×1逐点卷积的。depthwise convolution是depth级别的操作。pointwise convolution其实就是普通的卷积,只不过其采用1x1的卷积核。

网络结构:

(科普快餐)语义分割经典论文--5:MobileNets_第2张图片

       标准卷积旨在使用卷积核对上一层的feature进行卷积处理,然后将卷积处理后的feature进行融合得到新的表示。depthwise convolution对每一个通道单独进行卷积,pointwise convolution(1x1 卷积),使用一个线性组合得到新的特征。MobileNet中主要计算量基本集中在1x1卷积上,卷积的底层实现一般通过一种im2col方式实现,其需要内存重组,当卷积核为1x1时,就不需要这种操作了,底层可以有更快的实现。

        MobileNet是一个小型网络,小型网络训练时不容易过拟合,不需要使用dropout,正则化,数据集预处理增强等手段(加畸变,翻转,裁剪等)。

(科普快餐)语义分割经典论文--5:MobileNets_第3张图片

宽度因子和分辨率因子:

        width multiplier主要是按比例减少通道数,α取值范围为(0,1],那么输入与输出通道数将变成αM和αN,降低通道数,降低网络宽度,让网络变瘦。相同参数量下,深瘦型网络比浅胖型网络效果好。

        Resolution multiplier控制输入图片以及各层的feature map的大小,能够减小计算量,但是不能减小参数量,因为这个对于卷积核的大小没有影响。

 

你可能感兴趣的:(人工智能,深度学习,计算机视觉)