转载请注明出处:https://blog.csdn.net/qq_33427047/article/details/80393972
1 这个class的主要作用是什么?
TextCNN类搭建了一个最basic的CNN模型,有input layer,convolutional layer,max-pooling layer和最后输出的softmax layer.
但是又因为整个模型是用于文本的(而非CNN的传统处理对象:图像),因此在cnn的操作上相对应地做了一些小调整:
总结一下这个类的作用就是:搭建一个用于文本数据的CNN模型!
2 模型参数
3 Dropout
4 Embedding Layer
# Embedding layer
with tf.device('/cpu:0'), tf.name_scope("embedding"):
self.W = tf.Variable(
# 所有词汇,每个词对应一个embedding_size的向量
tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0),
name="W")
# 将input_x中的每句话的每一个词都用embedding_size维的向量来表示
# 表示后的向量维度是:[input_x.shape[0], sequence_length, embedding_size]
self.embedded_chars = tf.nn.embedding_lookup(self.W, self.input_x)
# 因为卷积操作conv2d()需要输入的是四维数据,分别代表着批处理大小、宽度、高度、通道数。
# 而embedded_chars只有前三维,所以需要添加一维,设为1。变为:[input_x.shape[0], sequence_length, embedding_size, 1]
# [训练时一个batch的图片数量, 图片高度, 图片宽度, 图像通道数]
self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)
存储全部word vector的矩阵W初始化时是随机random出来的,也就是paper中的第一种模型CNN-rand.
训练过程中并不是每次都会使用全部的vocabulary,而只是产生一个batch(batch中都是sentence,每个sentence标记了出现哪些word(较大长度为sequence_length),因此batch相当于一个二维列表),这个batch就是input_x.
self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name="input_x")
tf.nn.embedding_lookup:查找input_x中所有的ids,获取它们的word vector。batch中的每个sentence的每个word都要查找。所以得到的embedded_chars的shape应该是[None, sequence_length, embedding_size] (1)
输入的word vectors得到之后,下一步就是输入到卷积层,用到 tf.nn.conv2d 函数
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None)
除去name参数用以指定该操作的name,与方法有关的一共五个参数:
input:指需要做卷积的输入图像,它要求是一个Tensor,具有[batch, in_height, in_width, in_channels]这样的shape,具体含义是[训练时一个batch的图片数量, 图片高度, 图片宽度, 图像通道数],注意这是一个4维的Tensor,要求类型为float32和float64其中之一
filter:相当于CNN中的卷积核,它要求是一个Tensor,具有[filter_height, filter_width, in_channels, out_channels]这样的shape,具体含义是[卷积核的高度,卷积核的宽度,图像通道数,卷积核个数],要求类型与参数input相同,有一个地方需要注意,第三维in_channels,就是参数input的第四维
strides:卷积时在图像每一维的步长,这是一个一维的向量,长度4
padding: string类型的量,只能是”SAME”, “VALID”其中之一,这个值决定了不同的卷积方式
use_cudnn_on_gpu: bool类型,是否使用cudnn加速,默认为true
结果返回一个Tensor,这个输出,就是我们常说的feature map
5 Conv and Max-pooling
# 卷积层、池化层
pooled_outputs = []
for i, filter_size in enumerate(filter_sizes):
with tf.name_scope("conv-maxpool-%s" % filter_size):
# 卷积层
# 构建卷积核尺寸,输入和输出channel分别为1和num_filters
# 相当于CNN中的卷积核,它要求是一个Tensor,
# 具有[filter_height, filter_width, in_channels, out_channels]这样的shape,
# 具体含义是[卷积核的高度,卷积核的宽度,图像通道数,卷积核个数],
# 要求类型与参数input相同,有一个地方需要注意,第三维in_channels,就是参数input的第四维
filter_shape = [filter_size, embedding_size, 1, num_filters]
# 矩阵内积 + 偏置 : W * X + b
# W 就是卷积核
W = tf.Variable(tf.truncated_normal(filter_shape, stddev=0.1), name="W")
b = tf.Variable(tf.constant(0.1, shape=[num_filters]), name="b")
conv = tf.nn.conv2d(
# [训练时一个batch的图片数量, 图片高度, 图片宽度, 图像通道数]
self.embedded_chars_expanded,
W,
# 卷积时在图像每一维的步长,这是一个一维的向量,长度4
strides=[1, 1, 1, 1],
# string类型的量,只能是”SAME”,”VALID”其中之一,这个值决定了不同的卷积方式
padding="VALID",
name="conv")
# 做完卷积之后,矩阵大小为 [None, sequence_length - filter_size + 1, 1, num_filters]
# 非线性操作,激活函数:relu(W*x + b)
# h 是对卷积结果进行非线性转换之后的结果
h = tf.nn.relu(tf.nn.bias_add(conv, b), name="relu")
# 最大池化, 选取卷积结果的最大值pooled的尺寸为[None, 1, 1, 128](卷积核个数)
# 本质上是一个特征向量,最后一个维度是特征代表数量
pooled = tf.nn.max_pool(
h, # 待池化的四维张量,维度是[batch, height, width, channels]
# 池化窗口大小,长度(大于)等于4的数组,与value的维度对应,
# 一般为[1,height,width,1],batch和channels上不池化
ksize=[1, sequence_length - filter_size + 1, 1, 1],
strides=[1, 1, 1, 1],
padding='VALID',
name="pool")
pooled_outputs.append(pooled)
# pooled_outputs最终为一个长度为3的列表。每一个元素都是[None,1,1,128]的Tensor张量
# 对每个卷积核重复上述操作,故pooled_outputs的数组长度应该为len(filter_sizes)
一个卷积核对于一个句子,convolution后得到的是一个vector;max-pooling后,得到的是一个scalar
以上是一个filter_size的结果(比如filter_size = 3),pooled存储的是当前filter_size下每个sentence最重要的num_filters个features,结果append到pooled_outputs列表中存起来,再对下一个filter_size进行相同的操作。
等到for循环结束时,也就是所有的filter_size全部进行了卷积和max-pooling之后,首先需要把相同filter_size的所有pooled结果concat起来,再将不同的filter_size之间的结果concat起来,最后的到的应该类似于二维数组,[batch, all_pooled_result]
# Combine all the pooled features
# 将所有window_size下的feature_vector也组合成一个single vector,作为最后一层softmax的输入
# 因为3种filter卷积池化之后是一个scalar, 共有
num_filters_total = num_filters * len(filter_sizes)
# 对pooled_outputs在第四个维度上进行合并,变成一个[None,1,1,384]Tensor张量
# 将不同核产生的计算结果(features)拼接起来
# tf.concat(values, concat_dim)连接values中的矩阵,concat_dim指定在哪一维(从0计数)连接
self.h_pool = tf.concat(pooled_outputs, 3)
# 把每一个max-pooling之后的张量合并起来之后得到一个长向量 [batch_size, num_filters_total]
# 展开成两维Tensor[None,384]
self.h_pool_flat = tf.reshape(self.h_pool, [-1, num_filters_total])
6 Dropout
# 是cnn中最流行的正则化方法
# dropout layer随机地选择一些神经元,使其失活。
# 这样可以阻止co-adapting,迫使它们每一个都学习到有用的特征。
# 失活的神经单元个数由dropout_keep_prob 决定。在训练的时候设为 0.5 ,测试的时候设为 1 (disable dropout)
with tf.name_scope("dropout"):
self.h_drop = tf.nn.dropout(self.h_pool_flat, self.dropout_keep_prob)
7 Output
# 全连接层计算输出向量(w*h+b)和预测(scores向量中的最大值即为预测结果);其实是个softmax分类器
with tf.name_scope("output"):
W = tf.get_variable(
"W",
shape=[num_filters_total, num_classes],
initializer=tf.contrib.layers.xavier_initializer())
b = tf.Variable(tf.constant(0.1, shape=[num_classes]), name="b")
l2_loss += tf.nn.l2_loss(W)
l2_loss += tf.nn.l2_loss(b)
self.scores = tf.nn.xw_plus_b(self.h_drop, W, b, name="scores")
self.predictions = tf.argmax(self.scores, 1, name="predictions")
8 Loss function
得到了整个网络的输出之后,也就是得到了y_prediction,但还需要和真实的y label进行比较,以此来确定预测好坏
# 损失函数
# Calculate Mean cross-entropy loss 计算scores和input_y的交叉熵损失函数
with tf.name_scope("loss"):
losses = tf.nn.softmax_cross_entropy_with_logits(logits=self.scores, labels=self.input_y)
self.loss = tf.reduce_mean(losses) + l2_reg_lambda * l2_loss
还是使用常规的cross_entropy作为loss function。最后一层是全连接层,为了防止过拟合,最后还要在loss func中加入l2正则项,即l2_loss。l2_reg_lambda来确定惩罚的力度
9 Accuracy
# Accuracy
# Accuracy计算准确度,预测和真实标签相同即为正确
with tf.name_scope("accuracy"):
correct_predictions = tf.equal(self.predictions, tf.argmax(self.input_y, 1))
self.accuracy = tf.reduce_mean(tf.cast(correct_predictions, "float"), name="accuracy")
tf.equal(x, y)返回的是一个bool tensor,如果xy对应位置的值相等就是true,否则false。得到的tensor是[batch, 1]的.
tf.cast(x, dtype)将bool tensor转化成float类型的tensor,方便计算.
tf.reduce_mean()本身输入的就是一个float类型的vector(元素要么是0.0,要么是1.0),直接对这样的vector计算mean得到的就是accuracy.