可以是整数,二元组,字符串三种形式。
valid
和 same
, valid
模式表示不充填,same
模式表示输入与输出的形状大小保持一致(但是仅仅适用于stride=1的情况!!!
)可以看出pytorch都是对称的进行padding,要么是四个方向都是一样的padding,要么上下或左右做一样的padding。
最后的输出形状计算公式如下:
H o u t = ⌊ H i n + 2 × padding [ 0 ] − dilation [ 0 ] × ( kernel_size [ 0 ] − 1 ) − 1 stride [ 0 ] + 1 ⌋ H_{out} = \left\lfloor\frac{H_{in} + 2 \times \text{padding}[0] - \text{dilation}[0] \times (\text{kernel\_size}[0] - 1) - 1}{\text{stride}[0]} + 1\right\rfloor Hout=⌊stride[0]Hin+2×padding[0]−dilation[0]×(kernel_size[0]−1)−1+1⌋
W o u t = ⌊ W i n + 2 × padding [ 1 ] − dilation [ 1 ] × ( kernel_size [ 1 ] − 1 ) − 1 stride [ 1 ] + 1 ⌋ W_{out} = \left\lfloor\frac{W_{in} + 2 \times \text{padding}[1] - \text{dilation}[1] \times (\text{kernel\_size}[1] - 1) - 1}{\text{stride}[1]} + 1\right\rfloor Wout=⌊stride[1]Win+2×padding[1]−dilation[1]×(kernel_size[1]−1)−1+1⌋
可以是 字符串和列表两种形式:
SAME
和 VALID
。 SAME
模式下,根据以下公式计算各方向的padding:P a d H = m a x ( f i l t e r H − ( I n H % s t r i d e H ) , 0 ) Pad_{H} = max(filter_H - (In_H \space \% \space stride_H),0) PadH=max(filterH−(InH % strideH),0)
P a d W = m a x ( f i l t e r W − ( I n W % s t r i d e W ) , 0 ) Pad_{W} = max(filter_W - (In_W \space \% \space stride_W),0) PadW=max(filterW−(InW % strideW),0)
P a d t o p = ⌊ P a d H 2 ⌋ Pad_{top} =\left\lfloor \frac{Pad_{H}}{2} \right\rfloor Padtop=⌊2PadH⌋
P a d b o t t o m = P a d H − P a d t o p Pad_{bottom} = Pad_{H} - Pad_{top} Padbottom=PadH−Padtop
P a d l e f t = ⌊ P a d W 2 ⌋ Pad_{left} = \left\lfloor \frac{Pad_{W}}{2} \right\rfloor Padleft=⌊2PadW⌋
P a d r i g h t = P a d W − P a d l e f t Pad_{right} = Pad_{W} - Pad_{left} Padright=PadW−Padleft
不同于pytorch,tensorflow的SAME
模式适用于任何的Stride时的padding,输出的形状为:
O u t H = I n H s t r i d e Out_{H} = \frac{In_{H}}{stride} OutH=strideInH
O u t W = I n W s t r i d e Out_{W} = \frac{In_{W}}{stride} OutW=strideInW
可以看出,tensorflow的padding不要求是对称的,上下左右的padding大小都可以不一样,而且优先进行右边和下边的padding(因为SAME
模式设计的初衷就是为了应对输出形状无法整除卷积核大小,而导致的最右边或最下边无法卷积的情况),当你不关心padding的方向和大小,只关心输出的形状是不是原来形状的整数倍时,就可以无脑使用SAME
padding 模式,tensorflow会自动帮你计算好要padding的大小。
VALID
模式下,与pytorch一样,直接不padding 。当输入形状不能整除卷积核大小,滑动窗口滑到最右边发现无法满足卷积条件时,多出来的那部分直接会被舍弃掉,输出的形状为:
O u t H = I n H − f i l t e r H + 1 s t r i d e H Out_{H} = \frac{In_H - filter_H + 1}{stride_{H}} OutH=strideHInH−filterH+1
O u t W = I n W − f i l t e r W + 1 s t r i d e W Out_{W} = \frac{In_W - filter_W + 1}{stride_{W}} OutW=strideWInW−filterW+1
O u t H = I n H + pad t o p + pad b o t t o m − dilation H × ( filter H − 1 ) − 1 stride H Out_{H} = \frac{In_{H} + \text{pad}_{top}+\text{pad}_{bottom} - \text{dilation}_{H} \times (\text{filter}_{H}- 1) - 1}{\text{stride}_{H}} OutH=strideHInH+padtop+padbottom−dilationH×(filterH−1)−1
O u t W = I n W + pad r i g h t + pad l e f t − dilation W × ( filter W − 1 ) − 1 stride W Out_{W} = \frac{In_{W} + \text{pad}_{right}+\text{pad}_{left} - \text{dilation}_{W} \times (\text{filter}_{W}- 1) - 1}{\text{stride}_{W}} OutW=strideWInW+padright+padleft−dilationW×(filterW−1)−1
注意
: Tensorflow 和 Pytorch 中Conv2D 对输出的形状大小的小数部分处理不一样。Pytorch中都是做截断处理
,或者说向下取整
,例如 输出若为 117.5 则直接取 117;而Tensorflow中对小数的处理采用的则是向上取整
,输出若为117.5,则取128。
参考
https://www.tensorflow.org/api_docs/python/tf/nn#notes_on_padding_2
https://www.tensorflow.org/api_docs/python/tf/nn/conv2d
https://pytorch.org/docs/stable/generated/torch.nn.Conv2d.html