第5章 深度学习用于计算机视觉
5.1 卷积神经网络简介
from keras import layers
from keras import models
model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
print(model.summary())
- 卷积神经网络接收形状为(image_height, image_width, image_channels)的输入张量(不包括批量维度)。本例中设置卷积神经网络处理大小为(28, 28, 1)的输入张量,这正是MNIST图像的格式。我们像第一层传入参数input_shape=(28, 28, 1)来完成此设置。
- 可以看到,每个Conv2D层和MaxPooling2D层的输出都是一个形状为(height, width, channels)的3D张量。宽度和高度两个维度的尺寸通常会随着网络加深而变小。通道数量由传入Conv2D层的第一个参数所控制(32或64)。
- 下一步是将最后的输出张量[大小为(3,3,64)]输入到一个密集连接分类器网络中,即Dense层的堆叠,你已经很熟悉了。这些分类器可以处理1D向量,而当前的输出是3D张量。首先,我们需要将3D输出展平为1D,然后在上面添加几个Dense层。
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10, activation='softmax'))
print(model.summary())
- 如你所见,在进入两个Dense层之前,形状为(3,3,64)的输出被展平为形状(576, )的向量。
from keras.datasets import mnist
from keras.utils import to_categorical
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images = train_images.reshape((60000, 28, 28, 1))
train_images = train_images.astype('float32')/255
test_images = test_images.reshape((10000, 28, 28, 1))
test_images = test_images.astype('float32')/255
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)
model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(train_images, train_labels, epochs=5, batch_size=64)
test_loss, test_acc = model.evaluate(test_images, test_labels)
print(test_acc)
5.1.1 卷积运算
- 密集连接层和卷积层的根本区别在于,Dense层从输入特征空间中学到的是全局模式(比如对于MNIST数字,全局模式就是涉及所有像素的模式),而卷积层学到的是局部模式,对于图像来说,学到的就是在输入图像的二维小窗口中发现的模式。
- 这个重要特性使卷积神经网络具有以下两个有趣的性质:(1)卷积神经网络学到的模式具有平移不变性(translation invariant)。卷积神经网络在图像右下角学到某个模式之后,它可以在任何地方识别这个模式,比如左上角。对于密集连接网络来说,如果模式出现在新的位置,它只能重新学习这个模式。这使得卷积神经网络在处理图像时可以高效利用数据(因为视觉世界从根本上上具有平移不变性),它只需要更少的训练样本就可以学到具有泛化能力的数据表示。(2)卷积神经网络可以学到模式的空间层次结构(soatial hierarchiese of patterns),第一个卷积层将学习较小的局部模式(比如边缘),第二个卷积层将学习由第一层特征组成的更大的模式,一次类推。这使得卷及审计网络可以有小地学习越来越复杂、越来越抽象的视觉概念(因为视觉世界从根本上具有空间层次结构)。
- 对于包含两个空间轴(高度和宽度)和一个深度轴(也叫通道轴)的3D张量,其卷积也叫特征图(feature map)。对于RGB图像,深度轴的维度大于等于3,因为图像有3个颜色通道:红色、绿色和蓝色。对于黑白图像(比如MNIST数字图像),深度等于1(表示灰度等级)。卷积运算从输入特征图中提取图块,并对所有这些图块应用相同的变换,生成输出特征图(output feature map)。该输出特征图仍是一个3D张量,具有宽度和高度,其深度可以任意取值,因为输出深度是层的参数,深度轴的不同通道不再像RGB输入哪有代表特定颜色,而是代表过滤器(filter)。过滤器对输入数据的某一方面进行编码,比如,单个过滤器可以从更高层次编码这样一个概念:“输出中包含一张脸”。
- 在MNIST示例中,第一个卷积层接收一个大小为(28,28,1)的特征图,并输出一个大小为(26,26,32)的特征图,即它在输入上计算32个过滤器。对于这32个输出通道,每个通道都包含一个26x26的数值网络,它是过滤器对输入的响应图(response map),表示这个过滤器模式在输入中不同位置的相应。这也是特征图这一术语的含义:深度轴的每个维度都是一个特征(或过滤器),而2D张量output[:, :, n]是这个过滤器在输入上的响应的二维空间图(map)。
- 卷积由一下两个关键参数所定义:(1)从输入中提取的图块尺寸:这些图块的大小通常是3x3或5x5。(2)输出特征图的深度:卷积所计算的过滤器的数量。
- 对于Keras的Conv2D层,这些参数都是向层传入的几个参数:Conv2D(output_depth, (window_height, window_width))。
- 注意,输出的宽度和高度可能与输入的宽度和高度不同:不同的原因可能有两点:(1)边界效应,可以通过对输入特征图进行填充来抵消。(2)使用了步幅(stride)。
- 如果你希望输出特征图的空间维度与输入相同,那么可以使用填充(padding)。填充是在输入特征图的每一边添加适当数目的行和列,使得每个输入方块都能作为卷积窗口的中心。
- 对于Conv2D层,可以通过padding参数来设置填充,这个参数有两个取值:"valid"表示不使用填充(只使用有效的窗口位置);“same”表示填充后输出的宽度和高度与输入相同。padding参数的默认值为“valid”。
- 理解输出尺寸的另一个因素是步幅的概念。目前为止,对卷积的描述都是假设卷积窗口的中心方块都是相邻的。但两个连续窗口的距离是卷积的一个参数,叫作步幅,默认值为1.也可以使用步进卷积(strided convolution),即步幅大于1的卷积。
- 步幅为2意味着特征图的宽度和高度都做了2倍下采样(除了边界效应引起的变化)。虽然步进卷积对某些类型的模型可能有用,但在实践中很少使用。
- 为了对特征图进行下采样,我们不用步幅,而是通常使用最大池化(max-pooling)运算。
5.1.2 最大池化运算
- 在卷积神经网络示例中,你可能注意到,在每个MaxPooling2D层之后,特征图的尺寸都会减半。例如,在第一个MaxPooling2D层之前,特征图的尺寸是26x26,但最大池化运算将其减半为13x13。这就是最大池化的作用:对特征图进行下采样,与步进卷积类型。
- 最大池化是从输入特征图中提取窗口,并输出每个通道的最大值。但是最大池化使用硬编码的max张量运算对局部图块进行变换,而不是使用学到的线性变换(卷积核)。最大池化与卷积的最大不同之处在于,最大池化通常使用2x2的窗口和步幅2,其目的是将特征图下采样2倍。与此相对的是,卷积通常使用3x3窗口和步幅1。
model_no_max_pool = models.Sequential()
model_no_max_pool.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))
model_no_max_pool.add(layers.Conv2D(64, (3, 3), activation='relu'))
model_no_max_pool.add(layers.Conv2D(64, (3, 3), activation='relu'))
print(model_no_max_pool.summary())
- 上述这种没有最大池化的架构有如下两点问题:(1)这种架构不利于学习特征的空间层级结构。第3层的3x3窗口中只包含初始输入的7x7窗口中所包含的信息。卷积神经网络学到的高级模式相对于初始输入来说仍然很小,这可能不足以学会对数字进行分类。我们需要让最后一个卷积层的特征包含输入的整体信息。
- 最后一层的特征图对每个样本共有22x22x64 = 30976个元素。这太多了。如果你将其展平并在上面添加一个大小为512的Dense层,那一层将会有1580个参数。这对于这样一个小模型来说太多了,会导致严重的过拟合。
- 简而言之,使用下采样的原因,一是减少需要处理的特征图的元素个数,二是通过让连续卷积层的观察窗口越来越大(即窗口覆盖原始输入的比例越来越大),从而引入空间过滤器的层级结构。
- 注意,最大池化不是实现这种下采样的唯一方法。你已经知道,还可以在前一个卷积层中使用步幅来实现。此外,你还可以使用平均池化来代替最大池化,其方法是将每个局部输入图块编号为取该图块各通道的平均值,而不是最大值。但最大池化的效果往往比这些替代方法更好。简而言之,原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在,而观察不同特征的最大值而不是平均值能够给出更多的信息。因此,最合理的子采样策略是首先生成密集的特征图(通过无步进的卷积),然后观察特征每个小图块上的最大激活,而不是查看输入的稀疏窗口(通过步进卷积)或对输入图块取平均,因为后两种方法可能导致错过或淡化特征是否存在的信息。