首先,定义变量:
输入图片的宽和高:i_w 和 i_h
输出特征图的宽和高:o_w 和 o_h
过滤器的宽和高:f_w 和 f_h
宽和高方向的步长:s_w 和 s_h
宽和高方向总的补零个数:pad_w 和 pad_h
顶部和底部的补零个数:pad_top 和 pad_bottom
左部和右部的补零个数:pad_left 和 pad_right
1. 一般卷积输出形状计算公式
1.1 正卷积
在正卷积时,一般我们希望卷积输入形状为输出形状的几倍,例如输入 256256,输出 128128,所以 o_w = i_w / s_w
,又有 o_w = (i_w - f_w + pad_w) / s_w + 1
, 所以可以得出 pad_w = f_w - s_w
,pad_h
类推。
1.2 反卷积
同理,在反卷积时,我们希望卷积输出形状为输入形状的几倍,例如输入 88,输出 256256,所以 o_w = i_w * s_w
,又有 o_w = i_w * s_w + f_w - s_w - pad_w
, 所以可以得出 pad_w = f_w - s_w
不变,pad_h
类推。
2. Tensorflow padding='SAME' 模式
以下来源于:https://www.cnblogs.com/White-xzx/p/9497029.html
在深度学习的图像识别领域中,我们经常使用卷积神经网络CNN来对图像进行特征提取,当我们使用TensorFlow搭建自己的CNN时,一般会使用TensorFlow中的卷积函数和池化函数来对图像进行卷积和池化操作,而这两种函数中都存在参数padding,该参数的设置很容易引起错误,所以在此总结下。
2.1.为什么要使用padding
在弄懂padding规则前得先了解拥有padding参数的函数,在TensorFlow中,主要使用tf.nn.conv2d()进行(二维数据)卷积操作,tf.nn.max_pool()、tf.nn.avg_pool来分别实现最大池化和平均池化,通过查阅官方文档我们知道其需要的参数如下:
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None,name=None)
tf.nn.max_pool_with_argmax(input, ksize, strides, padding, Targmax=None, name=None)
tf.nn.max_pool(value, ksize, strides, padding, name=None)
这三个函数中都含有padding参数,我们在使用它们的时候需要传入所需的值,padding的值为字符串,可选值为'SAME' 和 'VALID' ;
padding参数的作用是决定在进行卷积或池化操作时,是否对输入的图像矩阵边缘补0,'SAME' 为补零,'VALID' 则不补,其原因是因为在这些操作过程中过滤器可能不能将某个方向上的数据刚好处理完,如下所示:
当步长为5,卷积核尺寸为6×6时,当padding为VALID时,则可能造成数据丢失(如图1),当padding为SAME时,则对其进行补零(如图2),
2.2. padding公式
2.2.1 valid 模式
输出的宽和高为
o_w = (i_w - f_w + 1)/ s_w #(结果向上取整)
o_h = (i_h - f_h + 1)/ s_h #(结果向上取整)
2.2.2 same 模式
输出的宽和高为
o_w = i_w / s_w#(结果向上取整)
o_h = i_h / s_h#(结果向上取整)
各个方向的补零个数为:max()为取较大值,
pad_h = max(( o_h -1 ) × s_h + f_h - i_h , 0)
pad_top = ⌊pad_h / 2⌋ # 注意此处向下取整
pad_bottom = pad_h - pad_top
pad_w = max(( o_w -1 ) × s_w + f_w - i_w , 0)
pad_left = ⌊pad_w / 2⌋ # 注意此处向下取整
pad_right = pad_w - pad_left
2.3.卷积 padding='SAME' 的实战分析(原创)
2.3.1 pad_left = 0 时
>>> y = tf.constant([[1., 2., 3., 4.],[5., 6., 7., 8.],
[9., 10., 11., 12.], [13., 14., 15., 16.]])
>>> y = tf.reshape(y,[1,4,4,1])
>>> same_pad_y = tf.nn.max_pool(y, [1, 2, 2, 1], [1, 1, 2, 1], padding='SAME')
>>> print(sess.run(same_pad_y))
[[[[ 6.]
[ 8.]]
[[10.]
[12.]]
[[14.]
[16.]]
[[14.]
[16.]]]]
>>>
- 计算可得 o_w = 4
pad_w = max(( 4-1 ) × 1 + 2 - 4 , 0)= 1
pad_left = ⌊pad_w / 2⌋ = 0# 注意此处向下取整
pad_right = 1
从same_pad_y
的输出也可见,的确只在右侧进行了 pad
2.3.2 pad_left > 0 时
>>> y = tf.constant([[1., 2., 3., 4.],[5., 6., 7., 8.],
[9., 10., 11., 12.], [13., 14., 15., 16.]])
>>> y = tf.reshape(y,[1,4,4,1])
>>> same_pad_y = tf.nn.max_pool(y, [1, 3, 2, 1], [1, 1, 2, 1], padding='SAME')
>>> print(sess.run(same_pad_y))
[[[[ 6.]
[ 8.]]
[[10.]
[12.]]
[[14.]
[16.]]
[[14.]
[16.]]]]
- 此处
f_w
变成了 3,所以计算可得 o_w = 4
pad_w = max(( 4-1 ) × 1 + 3 - 4 , 0)= 2
pad_left = ⌊pad_w / 2⌋ = 1# 注意此处向下取整
pad_right = 1
从same_pad_y
的输出也可见,的确只在左侧和右侧都进行了 pad,因为如果左侧没有 pad,输出则会是[[[[10.] [12.]] [[14.] [16.]] [[14.] [16.]] [[0.] [0.]]]]