欢迎访问个人网络日志知行空间
深度可分离卷积(Depthwise Separable Convolution,DSC)最早出现在巴黎綜合理工學院(cmap ecole polytechnique)的Laurent Sifre于2014年提交的一篇名为“Rigid-motion scattering for image classification”的博士学位论文中。但让大家对DSC熟知的则是两个著名的模型,一个是2016年10月google对Inception v3改进后提出的Xception,另一个是2017年4月谷歌提出的专注于在移动设备上的轻量级神经网络MobileNet,关于MobileNet和Xception的介绍可参考知乎博文。要理解深度可分离卷积,先来回顾一下常规卷积神经网络。
大多数的资料将常规卷积神经网络都是以单通道图像为例子,不便于理解多通道的情况。这里借用CS231N讲义上的一个例子来说明:
https://cs231n.github.io//assets/conv-demo/index.html
(本来是一个动图,CSDN这个老小子不给加载iframe标签
)`
上图中,输入是5x5x3
的图像,即宽W=5高H=5通道C=3
,图中在输入图像上下左右边缘有+1
的padding
,故图中宽高为7
,卷积核大小3x3x2
,卷积步长stride=2
,根据下述公式可求卷积输出的大小:(5-3+2)/2+1=3
W o u t = W − K + 2 P S + 1 W_{out} = \frac{W-K+2P}{S} + 1 Wout=SW−K+2P+1
其中W
是输出图像的原始宽度,K
是卷积核的大小,P
是padding
的大小,stride
是卷积的步长,
从上图可以得到卷积参数的计算方式为3x3x3x2=54
:
p a r a m e t e r s = K × K × C i n × C o u t parameters = K\times K \times C_{in} \times C_{out} parameters=K×K×Cin×Cout
图像卷积的计算可以参考下图:
卷积输出的通道为2
卷积输入的通道为3
,因此当前卷积层可理解为2
个卷积核,每个卷积核的大小为3x3x3
W0
的通道1
计算W0
的通道2
计算W0
的通道3
计算以上就是常规卷积的计算过程,不同通道间计算得到的结果求和再加偏置。
了解了常规卷积的计算过程后,理解深度可分离卷积就很容易了。因为深度可分离卷积也是以常规的卷积神经网络为基础的,其计算成两部分,一部分是应用输入单个通道上的Depthwise卷积,一部分是核大小为1x1的Pointwise
的常规卷积
Depthwise的逐通道卷积一个卷积核负责一个通道,一个通道只被一个卷积核卷积
以输入宽高为5x5
通道为3
的图像为例,卷积核的输出通道也必须为3
,3
个卷积核分别只在输入数据的一个通道上做卷积,得到最后的卷积输出,注意与常规卷积的区分,3个卷积核大小都是3x3x1
。
因此Depthwise
的逐通道卷积参数个数为:
p a r a m e t e r s D e p t h w i s e = 3 × 3 × 3 = 27 parameters_{Depthwise} = 3\times3\times3=27 parametersDepthwise=3×3×3=27
Pointwise卷积运算是核大小为1x1
的常规卷积运算。Pointwise卷积运算会将上一步Depthwise`的逐通道卷积的map在深度方向上进行加权组合。
Pointwise卷积的参数为:
p a r a m e t e r s P o i n t w i s e = 1 × 1 × 3 × 4 = 12 parameters_{Pointwise} = 1\times1\times3\times4=12 parametersPointwise=1×1×3×4=12
- 1.https://zhuanlan.zhihu.com/p/92134485