卷积神经网络概念Q&A

1 如何计算cnn中某一层的感受野大小?

回答:

对于cnn中的每一个神经元,它都表征了输入图像的局部区域的信息,“感受野”指的是某一个神经元对应到输入图像的尺寸。

我们都知道,越深的网络层对应的感受野越大,比如我们想知道第n层的神经元在输入图像上的感受野,那么不妨把第 i i i层作为“伪输入图像”,并且记该神经元在第 i i i层的感受野大小为 R F i , 其 中 i < = 1 < = n RF_{i},其中i<=1<=n RFii<=1<=n,显然 R F n = 1 RF_{n}=1 RFn=1,可以使用如下公式求解出 R F 1 RF_{1} RF1,则 R F 1 RF_{1} RF1为所求。

R F i − 1 = ( R F i − 1 ) ∗ s t r i d e + f i l t e r _ s i z e RF_{i-1} = (RF_{i}-1)*stride + filter\_size RFi1=(RFi1)stride+filter_size

该公式的应用见下表,

layer index 1(输入图像) 2 3 4 5
filter 3x3 3x3 5x5 9x9
R F 1 , n = 5 RF_{1}, n=5 RF1,n=5 17x17 15x15 13x13 9x9 1x1
R F 1 , n = 4 RF_{1}, n=4 RF1,n=4 9x9 7x7 5x5 1x1
R F 1 , n = 3 RF_{1}, n=3 RF1,n=3 5x5 3x3 1x1
R F 1 , n = 2 RF_{1}, n=2 RF1,n=2 3x3 1x1

2 为什么相比于常规卷积,空洞卷积更适合检测小目标?

1 空洞卷积的同义词:膨胀卷积、dilated convolution;

2 目标检测任务中需要更高的空间分辨率和更丰富的上下文语义信息。空间分辨率对应定位精度,用feature map尺寸来衡量;语义信息对应分类精度,用感受野尺寸来衡量。

3 为什么相比于常规卷积,空洞卷积更适合检测小目标?

回答:对于小目标的检测,要求feature map具有高的空间分辨率和丰富的语义信息,因为空洞卷积层的感受野比常规卷积大,所以在获得相同的语义信息时,需要的层数更少,也即使用空洞卷积层的网络的输出feature map具有更高的空间分辨率。引用Repulsion loss文章中的一段话,

“It is worth noting that ResNet is rarely used in pedestrian detection, since the down-sampling rate at convolution layers is too large for the network to detect and localize small pedestrians. To handle this, we use dilated convolution and the final feature map is 1=8 of input size.”

Bottleneck层空间分辨率
常规卷积 image_size * 1/32
空洞卷积 image_size * 1/8

3 转置卷积和反卷积的联系和区别分别是什么?

3.1 联系

相同点
转置卷积和反卷积都能将低维特征转换为高维特征;
不同点
转置卷积只能还原shape大小,不能还原value大小;
反卷积同时还原shape大小和value大小。

1The term “deconvolution” is sometimes used in the literature, but we advocate against it
on the grounds that a deconvolution is mathematically defined as the inverse of a convolution,
which is different from a transposed convolution.
2The transposed convolution operation can be thought of as the gradient of some convolution with respect to its input, which is usually how transposed convolutions are implemented
in practice.

3.2 区别

3.2.1 转置卷积(transpose convolution)

(1) 数学公式解释

参见 https://www.zhihu.com/question/43609045

(2) 图像化解释

https://github.com/vdumoulin/conv_arithmetic

(3)为什么上面的图像化和数学公式解释是等价的,也即,转置卷积是加了padding的常规卷积?

参见 https://zhuanlan.zhihu.com/p/34453588

3.2.2 反卷积(deconvolution)

反卷积的数学含义,通过该操作,可以将卷积后的信号,完全还原卷积前的信号,无任何信息丢失。

4 Inception module和Resnet module是怎么组合,构成Inception-Resnet网络结构的?

回答:
(1)Inception module采用了多种滤波器分支,然后所有分支的feature maps做concate操作;
(2)Resnet module采用了shortcut连接,分别采用 1 × 1 1\times1 1×1卷积和downsample改变shortcut分支的channels和feature maps尺寸,然后主分支和shortcut分支的feature maps做sum操作;
(3)Inception-Resnet网络是在Inception module的基础上,增加Resnet module中的shortcut连接结构,即将concate操作后的feature maps和shortcut分支的feature maps做sum操作;



参考资料:

https://arxiv.org/pdf/1603.07285.pdf

你可能感兴趣的:(机器学习理论)