源码剖析(一): slim mobilenet_v1

以下源码来源于TensorFlow官方github:
https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet_v1.py
文中若有错误,欢迎留言指出。

我们先总体看看mobielnet_v1结构:


image.png

mobielnet_v1 主要包含了22层卷积 + 1层Avg Pool + 1层FC,通过stride来控制feature map大小。

源码中主要函数2个,辅助函数2个
我们先看看mobielnet_base()函数头,此函数用于实现卷积部分的网络。

def mobilenet_v1_base(inputs,
                      final_endpoint='Conv2d_13_pointwise',
                      min_depth=8,
                      depth_multiplier=1.0,
                      conv_defs=None,
                      output_stride=None,
                      use_explicit_padding=False,
                      scope=None):
  """
  Args:
    output_stride: An integer that specifies the requested ratio of input to
      output spatial resolution. If not None, then we invoke atrous convolution
      if necessary to prevent the network from reducing the spatial resolution
      of the activation maps. Allowed values are 8 (accurate fully convolutional
      mode), 16 (fast fully convolutional mode), 32 (classification mode).
    use_explicit_padding: Use 'VALID' padding for convolutions, but prepad
      inputs so that the output dimensions are the same as if 'SAME' padding
      were used.
"""

大部分常规参数都很容易理解,这边我们主要看看use_explicit_paddingoutput_stride
先看use_explicit_padding,通过注释可以知道,这个布尔型参数是用于,当卷积使用VALID的方式时,通过预填充(prepad),保证与SAME的方式输出同样的结果大小。

此处的prepad对应的函数即为_fixed_padding()

def _fixed_padding(inputs, kernel_size, rate=1):
  """Pads the input along the spatial dimensions independently of input size.
  Pads the input such that if it was used in a convolution with 'VALID' padding,
  the output would have the same dimensions as if the unpadded input was used
  in a convolution with 'SAME' padding.
  Args:
    inputs: A tensor of size [batch, height_in, width_in, channels].
    kernel_size: The kernel to be used in the conv2d or max_pool2d operation.
    rate: An integer, rate for atrous convolution.
  Returns:
    output: A tensor of size [batch, height_out, width_out, channels] with the
      input, either intact (if kernel_size == 1) or padded (if kernel_size > 1).
  """
  kernel_size_effective = [kernel_size[0] + (kernel_size[0] - 1) * (rate - 1),
                           kernel_size[0] + (kernel_size[0] - 1) * (rate - 1)]
  pad_total = [kernel_size_effective[0] - 1, kernel_size_effective[1] - 1]
  pad_beg = [pad_total[0] // 2, pad_total[1] // 2]
  pad_end = [pad_total[0] - pad_beg[0], pad_total[1] - pad_beg[1]]
  padded_inputs = tf.pad(inputs, [[0, 0], [pad_beg[0], pad_end[0]],
                                  [pad_beg[1], pad_end[1]], [0, 0]])
  return padded_inputs

要理解这个函数,首先我们得先了解一下空洞卷积(atrous convolution)
空洞卷积在原始卷积的基础上,加入了一个称为 “扩张率(dilation rate)”的新参数,该参数定义了卷积核处理数据时各值的间距。
通过对比图,可以一目了然:

原始卷积
6e5c4d003f584cf1af342eae71dc31aa_th.jpg.gif
空洞卷积

14ec9e4b290e451fad28be61170b5dc1_th.jpg.gif

△卷积核为3、扩张率为2和无边界扩充的二维空洞卷积

一个扩张率为2的3×3卷积核,感受野与5×5的卷积核相同,而且仅需要9个参数。你可以把它想象成一个5×5的卷积核,每隔一行或一列删除一行或一列。

在相同的计算条件下,空洞卷积提供了更大的感受野。空洞卷积经常用在实时图像分割中。当网络层需要较大的感受野,但计算资源有限而无法提高卷积核数量或大小时,可以考虑空洞卷积

空洞卷积的卷积核大小计算公式为:

new_width = (width - 1) * rate + 1
new_height = (height - 1) * rate + 1

在回头看第一行代码

kernel_size_effective = [kernel_size[0] + (kernel_size[0] - 1) * (rate - 1),
                        kernel_size[0] + (kernel_size[0] - 1) * (rate - 1)]

kernel_size[0] + (kernel_size[0] - 1) * (rate - 1) 将括号内的运算展开,最后得到的与上面的公式形式是一样的,即 (kernel_size[0] - 1) * rate - 1
其实就是在计算空洞卷积的卷积核大小

要理解接下来的几行代码,我们又必须先了解tf.pad()这个略显奇怪的函数。
tf.pad()接收2个参数,第一个即要进行pad操作的tensor,第二个为各维度要pad的行(列)数。

详细解释及例子可参考:
https://blog.csdn.net/sinat_39372048/article/details/80976722

了解了tf.pad()函数,接下来的几行代码便容易理解:

pad_beg = [pad_total[0] // 2, pad_total[1] // 2]
pad_end = [pad_total[0] - pad_beg[0], pad_total[1] - pad_beg[1]]
padded_inputs = tf.pad(inputs, [[0, 0], [pad_beg[0], pad_end[0]],
                               [pad_beg[1], pad_end[1]], [0, 0]])
return padded_inputs

由于pad需要均匀在左右或者上下进行,所以通过除2的操作,让beg和end两个数尽量接近或相等。
而inputs的四个维度分别是[batch_size, height, width, channels],对于第一维和第四维我们不需要进行pad,相应的给到[0,0]即可。

你可能感兴趣的:(源码剖析(一): slim mobilenet_v1)