转载:https://blog.csdn.net/u013082989/article/details/77970196
宽度乘数(Width Multiplier): [减少输入和输出的 channels ] pointwise
分辨率乘数(Resolution Multiplier):[减少输入输出的 feature maps 的大小] deepwise
Depthwise Separable Convolution
)depthwise convolution
和 一个1X1
的卷积(叫作逐点卷积pointwise convolution
)。如下图所示是输入feature map的长和宽,M 是输入的通道数(channels)
是输出feature map的长和宽,N 是输出的通道数
引用上篇论文中的图, 只看kernel matrix 部分,Dk⋅DkDk⋅Dk就是一个方格的大小,然后乘上输入和输出的channels个数,然后作用在input feature maps
标准卷积是这样的, 即不管当前pixel有多少channels,卷积之后就是一个channel
第一步深度卷积:卷积核的大小是,所以总的计算量是:
第二步逐点卷积:卷积核大小是,所以总的计算量是:
所以和标准的卷积相比计算量比率为:
MobileNet使用的是3x3的卷积核,所以计算量可以减少8-9倍 (因为比率是1/N+1/9)
第一步深度卷积操作是在每一个channel上进行的卷积操作
第二步逐点卷积才是结合起来
可以将一个标准卷积核分成一个深度卷积depthwise convolution 和 一个1X1的卷积(叫作逐点卷积pointwise convolution)。如下图所示
-
宽度乘数(Width Multiplier):减少输入输出的channels
分辨率乘数(Resolution Multiplier):减少输入输出的feature map的大小
3:深度可分离卷积是将一个标准的卷积核分成深度卷积核和1x1的点卷积核,假设输入为M个通道的feature map,卷积核大小为DK∗DKDK∗DK,输出通道为N,那么标准卷积核即为M∗DK∗DK∗NM∗DK∗DK∗N。例如,输入feature map 为m∗n∗16m∗n∗16,想输出32通道,那么卷积核应为16∗3∗3∗3216∗3∗3∗32,则可以分解为深度卷积:16∗3∗316∗3∗3得到的是16通道的特征图谱。点卷积为16∗1∗1∗3216∗1∗1∗32,如果用标准卷积,则计算量为:m∗n∗16∗3∗3∗32=m∗n∗4608m∗n∗16∗3∗3∗32=m∗n∗4608。用深度可分解卷积之后的计算量为m∗n∗16∗3∗3+m∗n∗16∗1∗1∗32=m∗n∗656m∗n∗16∗3∗3+m∗n∗16∗1∗1∗32=m∗n∗656
4:所以和标准卷积核相比计算量比率为:Dk∗Dk∗Df∗Df∗M+Df∗Df∗M∗NDk∗Dk∗M∗N∗Df∗Df=1N+1Dk2Dk∗Dk∗Df∗Df∗M+Df∗Df∗M∗NDk∗Dk∗M∗N∗Df∗Df=1N+1Dk2
5:深度可分解卷积操作示意图如下:
6:mobilenet共28层(深度卷积和点卷积单独算一层),每层后边都跟有batchnorm层 和relu层
7:引入宽度乘数和分辨率乘数两个超参数,
宽度乘数αα主要用于减少channels,即即输入层的channels个数MM,变成αMαM,输出层的channels个数NN变成了αNαN
所以引入宽度乘数后的总的计算量是:Dk⋅Dk⋅αM⋅DF⋅DF+αM⋅αN⋅DF⋅DFDk⋅Dk⋅αM⋅DF⋅DF+αM⋅αN⋅DF⋅DF
分辨率乘数ρρ主要用于降低图片的分辨率,即作用在feature map 上
所以引入分辨率乘数后的总的计算量为:Dk⋅Dk⋅αM⋅ρDF⋅ρDF+αM⋅αN⋅ρDF⋅ρDFDk⋅Dk⋅αM⋅ρDF⋅ρDF+αM⋅αN⋅ρDF⋅ρDF
在看看MobileNet_ssd
mobilenet_ssd caffe模型可视化地址:MobileNet_ssd
可以看出,conv13是骨干网络的最后一层,作者仿照VGG-SSD的结构,在Mobilenet的conv13后面添加了8个卷积层,然后总共抽取6层用作检测,貌似没有使用分辨率为38*38的层,可能是位置太靠前了吧。
提取默认框的6层为conv11, conv13, conv14_2, conv15_2, conv16_2, conv17_2,该6层feature map 每个cell产生的默认框个数分别为3,6,6,6,6,6。也就是说在那6层的后边接的用于坐标回归的3*3的卷积核(层名为conv11_mbox_loc……)的输出个数(num output)分别为12,24,24,24,24,24,24。
那6层后边接的用于类别得分的3*3卷积核(层名为conv11_mbox_conf……)的输出个数为3*21(类别为21类,3个默认框) = 63,126, 126, 126, 126, 126。