[Paper Note] MixNet: Mixed Depthwise Convolutional Kernals

abstract

MixNet这篇文章系统研究了不同尺寸的卷积核对于最终结果的影响,提出了一个混合深度卷积(MDConv),在一个卷积中混合了多个卷积核尺寸。然后把MDConv集成到AutoML的搜索空间,构建了MixNets。
不同卷积核尺寸对模型的影响如下:
[Paper Note] MixNet: Mixed Depthwise Convolutional Kernals_第1张图片

MDConv architecture

[Paper Note] MixNet: Mixed Depthwise Convolutional Kernals_第2张图片
因为不同大小的卷积核捕捉的模式不同,特征不同,所以把通道分成多组,每组通道使用不同尺寸的卷积核(这些都是在一个卷积内),由此可以获取输入图像的不同尺度的模式。

MDConv Feature Map

X ( h , w , c ) X^{(h,w,c)} X(h,w,c)表示输入张量, W ( k , k , c , m ) W^{(k,k,c,m)} W(k,k,c,m)表示深度卷积核,c是通道数,m是通道乘子。输出张量为 Y ( h , w , c × m ) Y^{(h,w,c \times m)} Y(h,w,c×m),大小依然为 h × w h \times w h×w 但是通道数变成了 m × c m \times c m×c
所以每个feature map的值计算如下:
(1) Y x , y , z = ∑ − k 2 ≤ i ≤ k 2 , − k 2 ≤ j ≤ k 2 X x + i , y + j , z / m ⋅ W i , j , z , ∀ z = 1 , … , m ⋅ c Y_{x, y, z}=\sum_{-\frac{k}{2} \leq i \leq \frac{k}{2},-\frac{k}{2} \leq j \leq \frac{k}{2}} X_{x+i, y+j, z / m} \cdot W_{i, j, z}, \quad \forall z=1, \ldots, m \cdot c \tag{1} Yx,y,z=2ki2k,2kj2kXx+i,y+j,z/mWi,j,z,z=1,,mc(1)
张量分g组后为 < X ^ ( h , w , c 1 ) , … , X ^ ( h , w , c g ) > <\hat{X}^{\left(h, w, c_{1}\right)}, \ldots, \hat{X}^{\left(h, w, c_{g}\right)}> <X^(h,w,c1),,X^(h,w,cg)>,合起来的通道数还是c。同样的,把卷积核也分组得到 < W ^ ( k 1 , k 1 , c 1 , m ) , … , W ^ ( k g , k g , c g , m ) > <\hat{W}^{\left(k_{1}, k_{1}, c_{1}, m\right)}, \ldots, \hat{W}^{\left(k_{g}, k_{g}, c_{g}, m\right)}> <W^(k1,k1,c1,m),,W^(kg,kg,cg,m)>,所以对于具体的第t组,输出计算为:
(2) Y ^ x , y , z t = ∑ − k 2 ≤ i ≤ k 2 , − k 2 ≤ j ≤ k 2 X ^ x + i , y + j , z / m t ⋅ W ^ i , j , z t , ∀ z = 1 , … , m ⋅ c t \hat{Y}_{x, y, z}^{t}=\sum_{-\frac{k}{2} \leq i \leq \frac{k}{2},-\frac{k}{2} \leq j \leq \frac{k}{2}} \hat{X}_{x+i, y+j, z / m}^{t} \cdot \hat{W}_{i, j, z}^{t} , \forall z=1, \ldots, m \cdot c_{t} \tag{2} Y^x,y,zt=2ki2k,2kj2kX^x+i,y+j,z/mtW^i,j,ztz=1,,mct(2)
最后每个组得到的y连接起来得到:
(3) Y x , y , z o =  Concat  ( Y ^ x , y , z 1 1 , … , Y ^ x , y , z g g ) Y_{x, y, z_{o}}=\text { Concat }\left(\hat{Y}_{x, y, z_{1}}^{1}, \ldots, \hat{Y}_{x, y, z_{g}}^{g}\right) \tag{3} Yx,y,zo= Concat (Y^x,y,z11,,Y^x,y,zgg)(3)

MDConv Design Choices

Group Size g: 取决于卷积核类型个数,g=1等于普通的卷积,一般g=4是一个比较好好的选择,实验证明一般 1 ≤ g ≤ 5 1 \le g \le 5 1g5

Kenal Size Per Group 一般是 3 × 3 3 \times 3 3×3 然后卷积核依次增大2. 也就是 { 3 × 3 , 5 × 5 , 7 × 7 , 9 × 9 } \{3 \times 3,5 \times 5,7 \times 7,9 \times 9\} {3×3,5×5,7×7,9×9}

Channel Size Per Group 两种策略

  • (1)均分
  • (2)指数递增, 第i组,通道数为全部通道数的 2 − i 2^{-i} 2i

Dilated Convolution 对较大的卷积核,可以使用膨胀卷积替代,减少参数个数
不同策略的结果如下:
[Paper Note] MixNet: Mixed Depthwise Convolutional Kernals_第3张图片

Summary

最后放一下MixNet的结果:
[Paper Note] MixNet: Mixed Depthwise Convolutional Kernals_第4张图片
主要借鉴的地方还是在于MDConv,可以用到很多地方。

你可能感兴趣的:(Paper,Reading)