掌握Tensorflow之VGG-16网络搭建与讲解

掌握Tensorflow之VGG-16网络搭建与讲解_第1张图片
VGGNet探索了卷积神经网络的深度与性嫩之间的关系,通过反复堆叠3×3的卷积核和2×2的池化层构建了16层的卷积神经网络。
由上图所知,VGG一共有五段卷积,每段卷积之后紧接着最大池化层,作者一共实验了6种网络结构。分别是VGG-11,VGG-13,VGG-16,VGG-19,网络的输入是224*224大小的图像,输出是图像分类结果。
下面我们主要针对tensorflow如何实现vgg做出讲解。

VGGNet-16包含了很多卷积层,因此我们写一个conv——op,来创建卷积层并把本层的参数存入参数列表。此函数的输入有:input_op是输入的tensor,name是名称,kh为卷积核的高,kw为宽,n_out是输出通道数,dh是步长的高,dw是步长的宽,p是参数列表。接着使用tf.nn.conv2d对input_op进行卷积处理,使用tf.Variable将其转成可训练的参数,最后输出activation作为函数结果返回。

def conv_op(input_op, name, kh, kw,n_out, dh, dw, p):
    n_in = input_op.get_shape()[-1].value
    # 也就是说,它的主要目的是为了更加方便地管理参数命名。
    # 与 tf.Variable() 结合使用。简化了命名
    with tf.name_scope(name) as scope:
        kernel = tf.get_variable(scope+"w", shape=[kh, kw, n_in, n_out],
                                 initializer=tf.contrib.layers.xavier_initializer_conv2d())
        conv = tf.nn.conv2d(input_op, kernel, (1, dh, dw, 1), padding='SAME')
        bias_init_val = tf.constant(0.0, shape=[n_out], dtype=tf.float32)
        biases= tf.Variable(bias_init_val, trainable=True, name='b')
        z = tf.nn.bias_add(conv, biases)
        activation = tf.nn.relu(z, name=scope)
        p +=[kernel, biases]
        return activation

下面定义全连接层函数fc_op。这里跟上面的函数不同的是参数维度,因为是全连接所以维度只有两个参数。

def fc_op(input_op, name, n_out, p):
    n_in = input_op.get_shape()[-1].value
    with tf.name_scope(name) as scope:
        kernel = tf.get_variable(scope + "w", shape=[n_in, n_out],
                                 initializer=tf.contrib.layers.xavier_initializer())
        biases = tf.Variable(tf.constant(0.1, shape=[n_out]), dtype=tf.float32, name='b')
        activation = tf.nn.relu_layer(input_op, kernel, biases, name=scope)
        p += [kernel, biases]
        return activation

再定义最大池化层的创建函数mpool_op。

def mpool_op(input_op, name, kh, kw, dh, dw):
 return tf.nn.max_pool(
                         input_op,
                         ksize=[1, kh, kw, 1],
                         strides=[1, dh, dw, 1],
                         padding='SAME',
                         name=name)

完成了卷积层,全连接层与最大池化层的函数,接下来就开始创建VGGNet-16的网络结构。构建函数为inference_op,输入有input_op和keep_prob,这里keep_prob是控制dropout的一个placeholder。从结构图中,我们知道第一层有两个3×3卷积层与最大池化层构成。第一个卷积层的输入input_op的size为224×224×3,输出size为224×224×64,第二个卷积层的输入输出size均为
224×224×64,经过池化层后变为112×112×64.

def inference_op(input_op, keep_prob):
    p = []
    conv1_1 = conv_op(input_op, name="conv1_1", kh=3, kw=3, n_out=64, dh=1, dw=1, p=p)
    conv1_2 = conv_op(conv1_1, name="conv1_2", kh=3, kw=3, n_out=64, dh=1, dw=1, p=p)
    pool1 = mpool_op(conv1_2, name="pool1", kh=2, kw=2, dw=2, dh=2)

第二段同样是两个3×3卷积层与一个池化层,输出通道数为128,因此这一段网络的输出size为56×56×128.

    conv2_1 = conv_op(pool1, name="conv2_1", kh=3, kw=3, n_out=128, dh=1, dw=1, p=p)
    conv2_2 = conv_op(conv2_1, name="conv2_2", kh=3, kw=3, n_out=128, dh=1, dw=1, p=p)
    pool2 = mpool_op(conv2_2, name="pool2", kh=2, kw=2, dw=2, dh=2)

第三段有三个3×3的卷积层与一个池化层,输出通道数变为256,最终输出size为28×28×256。

    conv3_1 = conv_op(pool2, name="conv3_1", kh=3, kw=3, n_out=256, dh=1, dw=1, p=p)
    conv3_2 = conv_op(conv3_1, name="conv3_2", kh=3, kw=3, n_out=256, dh=1, dw=1, p=p)
    conv3_3 = conv_op(conv3_2, name="conv3_3", kh=3, kw=3, n_out=256, dh=1, dw=1, p=p)
    pool3 = mpool_op(conv3_3, name="pool3", kh=2, kw=2, dw=2, dh=2)

第四段有三个3×3的卷积层与一个池化层,输出通道数变为512,最终输出size为14×14×512。

   conv4_1 = conv_op(pool3, name="conv4_1", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
   conv4_2 = conv_op(conv4_1, name="conv4_2", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
   conv4_3 = conv_op(conv4_2, name="conv4_3", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
   pool4 = mpool_op(conv4_3, name="pool4", kh=2, kw=2, dw=2, dh=2)

最后一段卷积层有所变化,这里通道数不再增加,维持在512,而经过池化层后输出size为7×7×512.

  conv5_1 = conv_op(pool4, name="conv5_1", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
  conv5_2 = conv_op(conv5_1, name="conv5_2", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
  conv5_3 = conv_op(conv5_2, name="conv5_3", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
  pool5 = mpool_op(conv5_3, name="pool5", kh=2, kw=2, dw=2, dh=2)

我们将最后输出flat成一维向量,然后链接一个隐含节点数为4096的全连接层,激活函数为Relu。再接一个dropout层,在训练时保留率为0.5,预测时为1.0。接下来是一个和前面一样的全连接层,后面连着dropout。最后一个有1000个输出节点的全连接层,并使用softmax进行处理得到分类输出概率,此时VGGNet-16的网络结构就全部构建完毕了。

  shp = pool5.get_shape()
  flattened_shape = shp[1].value * shp[2].value * shp[3].value
  resh1 = tf.reshape(pool5, [-1, flattened_shape], name="resh1")
  fc6 = fc_op(resh1, name="fc6", n_out=4096, p=p)
  fc6_drop = tf.nn.dropout(fc6, keep_prob, name="fc6_drop")
  fc7 = fc_op(fc6_drop, name="fc7", n_out=4096, p=p)
  fc7_drop = tf.nn.dropout(fc7, keep_prob, name="fc7_drop")
  fc8 = fc_op(fc7_drop, name="fc8", n_out=1000, p=p)
  softmax = tf.nn.softmax(fc8)
  prediction = tf.argmax(softmax, 1)
  return prediction, softmax, fc8, p

你可能感兴趣的:(掌握Tensorflow之VGG-16网络搭建与讲解)