局部感知
:局部感知即卷积核的局部感受野,指的是卷积核所覆盖的像素面积,由于每个卷积核所覆盖的面积仅是很少的一部分,是局部特征,即为局部感知。CNN是一个从局部到整体的过程(局部到整体的实现是在全连通层)。下图是全连接层和卷积层的对比。权重共享
:卷积神经网络的卷积层,不同神经元的权值是共享的,这使得整个神经网络的参数大大减小,提高了整个网络的训练性能。降采样
:降采样是卷积神经网络的另一重要概念,通常也称之为池化(Pooling)。简单理解可以看作是对图像的一次“有损压缩”,因为在实际的训练中,我们并不需要对图像中的每一个细节都进行特征提取和训练,所以池化的作用就是更进一步的信息抽象和特征提取,当然也会减小数据的处理量。最常见的方式有最大值(Max)池化、最小值(Min)池化、平均值(Average)池化。池化的好处是降低了图像的分辨率,整个网络也不容易过拟合。最大值池化如图所示。当然中间还可以使用一些其他的功能层:
Batch Normalization:Batch Normalization(批量归一化)实现了在神经网络层的中间进行预处理的操作,即在上一层的输入归一化处理后再进入网络的下一层,这样可有效地防止“梯度弥散”,加速网络训练。Batch Normalization具体的算法如下图所示:
在每次训练时,取batch_size大小的样本进行训练,在BN层中,将一个神经元看作一个特征,batch_size个样本在某个特征维度会有batch_size个值,然后在每个神经元 x i x_i xi维度上的进行这些样本的均值和方差,通过公式得到 x ^ i \hat{x}_i x^i,再通过参数 γ γ γ和 β β β进行线性映射得到每个神经元对应的输出 y i y_i yi。在BN层中,可以看出每一个神经元维度上,都会有一个参数 γ γ γ和 β β β,它们同权重 w w w一样可以通过训练进行优化。
在卷积神经网络中进行批量归一化时,一般对未进行ReLu激活的feature map
进行批量归一化,输出后再作为激励层的输入,可达到调整激励函数偏导的作用。
- 一种做法是将feature map中的神经元作为特征维度,参数 γ γ γ和 β β β的数量和则等于 2 × f m a p w i d t h × f m a p l e n g t h × f m a p n u m 2 × f m a p w i d t h × f m a p l e n g t h × f m a p n u m 2×fmapwidth×fmaplength×fmapnum2×fmapwidth×fmaplength×fmapnum 2×fmapwidth×fmaplength×fmapnum2×fmapwidth×fmaplength×fmapnum,这样做的话参数的数量会变得很多;
- 另一种做法是把一个feature map看做一个特征维度,一个feature map上的神经元共享这个feature map的参数 γ γ γ和 β β β,参数 γ γ γ和 β β β的数量和则等于 2 × f m a p n u m 2 × f m a p n u m 2×fmapnum2×fmapnum 2×fmapnum2×fmapnum,计算均值和方差则在batch_size个训练样本在每一个feature map维度上的均值和方差。注:fmapnum指的是一个样本的feature map数量,feature map 跟神经元一样也有一定的排列顺序。
Local Response Normalization: 近邻归一化(Local Response Normalization)的归一化方法主要发生在不同的相邻的卷积核(经过ReLu之后)的输出之间,即输入是发生在不同的经过ReLu之后的 feature map 中。LRN的公式如下:
b ( i , x , y ) = a ( i , x , y ) ( k + α ∑ j = m a x ( 0 , i − n 2 ) m i n ( N − 1 , i + n 2 ) a ( j , x , y ) 2 ) β b(i,x,y)=\frac{a(i,x,y)}{(k+\alpha\sum_{j=max(0,i-\frac{n}{2})}^{min(N-1, i+\frac{n}{2})} a(j,x,y)^2)^\beta} b(i,x,y)=(k+α∑j=max(0,i−2n)min(N−1,i+2n)a(j,x,y)2)βa(i,x,y)
其中:
与BN的区别:BN依据mini batch的数据,近邻归一仅需要自己来决定,BN训练中有学习参数;BN归一化主要发生在不同的样本之间,LRN归一化主要发生在不同的卷积核的输出之间。
CNN最早由LeCun 在1998年《Gradient-based learning applied to document recognition》中提出,并提出了一个目标检测的模型:LeNet-5,随后在2012年ImageNet竞赛上,基于CNN网络的AlexNet取得了第一,且正确率超出第二近10%,取得了历史性的突破。CNN开始大放异彩,VGG Net,Google Net,ResNet等,都是基于CNN网络的一些杰出的工作。
由两个卷积层,两个池化层,两个全连接层组成。卷积核都是5×5,stride=1,池化层使用maxpooling
2012 年 AlexNet 在 ImageNet 2012 图像识别挑战赛上一鸣惊人,证明了学习到的特征可以超越手工特征,结构如下:
该网络有以下的创新:
VGG提出可以通过重复使用简单的基础块来构建深度模型。VGG 块的组成规律是:连续使用多个相同的 padding 为 1,kernel size 为 3×3 的卷积层后,接上一个 stride 为 2,kernel 为 2×2 的最大池化层。卷积层保持输入的尺寸不变,而池化层则对其减半。
AlexNet和 VGGNet的对比如下图所示:
NiN 是网络中的网络,使用的窗口形状为 11 × 11 11×11 11×11, 5 × 5 5×5 5×5, 3 × 3 3×3 3×3,每个NiN 块后接一个 stride 2,窗口 3×3 的最大池化层。最大的不同是 NiN 去掉了 AlexNet 的最后 3 个全连接层,用输出通道数等于标签类别数的 NiN 块,然后用全局平均池化并直接用于分类,可以显著减小模型参数尺寸,缓解过拟合,但是训练时间一般要增加。
GoogLeNet 在 2014 年的 ImageNet 图像识别挑战赛中大放异彩,吸收了 NiN 中网络串联网络的思想,并做了很大改进。这个model证明了一件事:用更多的卷积,更深的层次可以得到更好的结构。
GoogLeNet 中的基础卷积块叫做 Inception,结构如下图所示:
可以看到一个 Inception 块中有 4 条并行的线路,我们可以自定义每层输出的通道数,借此来控制模型复杂度。注:卷积部分使用了 5 个 block,每个 block 之间使用 stride 2 的 3×3 最大池化层来减小输出宽度
Inception-v2:在v1的基础上加入batch normalization技术,在tensorflow中,使用BN在激活函数之前效果更好;将5×5卷积替换成两个连续的3×3卷积,使网络更深,参数更少
Inception-v3:核心思想是将卷积核分解成更小的卷积,如将7×7分解成1×7和7×1两个卷积核,使网络参数减少,深度加深
Inception-v4结构:引入了ResNet,使训练加速,性能提升。但是当滤波器的数目过大(>1000)时,训练很不稳定,可以加入activate scaling因子来缓解
VGG证明更深的网络层数是提高精度的有效手段,但是更深的网络极易导致梯度弥散,从而导致网络无法收敛。经测试,20层以上会随着层数增加收敛效果越来越差。ResNet可以很好的解决梯度消失的问题(其实是缓解,并不能真正解决),ResNet增加了shortcut连边。
先来看看残差块的设计:
左图:输入 x x x,希望虚线部分能够学习出 f ( x ) f(x) f(x)
右图:输入 x x x,希望虚线部分能够学习出 f ( x ) – x f(x) – x f(x)–x,更容易学习, x x x也可以通过跨层的数据线路更快向前传播
这个思路非常深刻影响了未来的神经网络设计,为了能够让 f ( x ) − x f(x)-x f(x)−x和 x x x相加,可能需要引入 1 × 1 1×1 1×1的卷积层来变化尺寸。
DenseNet 可以看作是 ResNet 的发展创新,对比如下:
所谓迁移学习,就是将一个问题上训练好的模型通过简单的调整使其适用于一个新的问题。
一般来说,在数据量足够的情况下,迁移学习的效果不如完全重新训练。但是迁移学习所需要的训练事件和训练样本数要远远小于训练完整的模型。
cifar2数据集为cifar10数据集的子集,只包括前两种类别airplane和automobile。训练集有airplane和automobile图片各5000张,测试集有airplane和automobile图片各1000张。
cifar2任务的目标是训练一个模型来对飞机airplane和机动车automobile两种图片进行分类。
Cifar2数据集的文件结构如下所示:
在Tensorflow中准备图片数据的常用方案有两种:
tf.keras
中的ImageDataGenerator
工具构建图片数据生成器。tf.data.Dataset
搭配tf.image
中的一些图片处理方法构建数据管道。第二种方法是TensorFlow的原生方法,更加灵活,使用得当的话也可以获得更好的性能。
import tensorflow as tf
from tensorflow.keras import datasets, layers, models
BATCH_SIZE = 100
def load_image(img_path, size=(32,32)):
label = tf.constant(1, tf.int8) if tf.strings.regex_full_match(img_path,".*automobile.*") else tf.constant(0, tf.int8)
img = tf.io.read_file(img_path)
img = tf.image.decode_jpeg(img)
img = tf.image.resize(img, size)/255.0
return img, label
ds_train = tf.data.Dataset.list_files("../DemoData/cifar2/train/*/*.jpg").map(load_image, num_parallel_calls=tf.data.experimental.AUTOTUNE).shuffle(buffer_size=1000).batch(BATCH_SIZE).prefetch(tf.data.experimental.AUTOTUNE)
ds_test = tf.data.Dataset.list_files("../DemoData/cifar2/test/*/*.jpg").map(load_image, num_parallel_calls=tf.data.experimental.AUTOTUNE).batch(BATCH_SIZE).prefetch(tf.data.experimental.AUTOTUNE)
%matplotlib inline
%config InlineBackend.figure_format = 'png'
# 查看部分样本
from matplotlib import pyplot as plt
plt.figure(figsize=(8, 8))
for i, (img, label) in enumerate(ds_train.unbatch().take(9)):
ax = plt.subplot(3,3,i+1)
ax.imshow(img.numpy())
ax.set_title("label= %d"%label)
ax.set_xticks([])
ax.set_yticks([])
plt.show()
for x, y in ds_train.take(1):
print(x.shape, y.shape) # (100, 32, 32, 3) (100,)
使用Keras接口有以下3种方式构建模型:
这里选择使用函数式API构建模型
# 定义模型
tf.keras.backend.clear_session() # 清空会话
inputs = layers.Input(shape=(32,32,3))
x = layers.Conv2D(32, kernel_size=(3,3))(inputs)
x = layers.MaxPool2D()(x)
x = layers.Conv2D(64, kernel_size=(5,5))(x)
x = layers.MaxPool2D()(x)
x = layers.Dropout(rate=0.1)(x)
x = layers.Flatten()(x)
x = layers.Dense(32, activation='relu')(x)
outputs = layers.Dense(1, activation='sigmoid')(x)
model = models.Model(inputs=inputs, outputs=outputs)
model.summary()
Model: "model"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_1 (InputLayer) [(None, 32, 32, 3)] 0
conv2d (Conv2D) (None, 30, 30, 32) 896
max_pooling2d (MaxPooling2D) (None, 15, 15, 32) 0
conv2d_1 (Conv2D) (None, 11, 11, 64) 51264
max_pooling2d_1 (MaxPooling2D) (None, 5, 5, 64) 0
dropout (Dropout) (None, 5, 5, 64) 0
flatten (Flatten) (None, 1600) 0
dense (Dense) (None, 32) 51232
dense_1 (Dense) (None, 1) 33
=================================================================
Total params: 103,425
Trainable params: 103,425
Non-trainable params: 0
_________________________________________________________________
训练模型通常有3种方法:①内置fit方法,②内置train_on_batch方法,以及③自定义训练循环。这里选择最常用也最简单的内置fit方法。
import datetime
import os
stamp = datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
logdir = os.path.join('data', 'autograph', stamp)
## 在 Python3 下建议使用 pathlib 修正各操作系统的路径
# from pathlib import Path
# stamp = datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
# logdir = str(Path('../../data/autograph/' + stamp))
tensorboard_callback = tf.keras.callbacks.TensorBoard(logdir, histogram_freq=1)
model.compile(
optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
loss=tf.keras.losses.binary_crossentropy,
metrics=["accuracy"]
)
history = model.fit(ds_train,epochs= 10,validation_data=ds_test,
callbacks = [tensorboard_callback],workers = 4)
这里出现问题:因为采用的是jupyter notebook server运行方式,在执行cell之后,kernel重新启动了,没有执行成功。建议使用本地jupyter notebook 运行方式。
%load_ext tensorboard
#%tensorboard --logdir ../../data/keras_model
from tensorboard import notebook
notebook.list()
#在tensorboard中查看模型
notebook.start("--logdir ../../data/keras_model")
import pandas as pd
dfhistory = pd.DataFrame(history.history)
dfhistory.index = range(1,len(dfhistory) + 1)
dfhistory.index.name = 'epoch'
dfhistory
绘制训练损失和验证损失:
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
import matplotlib.pyplot as plt
def plot_metric(history, metric):
train_metrics = history.history[metric]
val_metrics = history.history['val_'+metric]
epochs = range(1, len(train_metrics) + 1)
plt.plot(epochs, train_metrics, 'bo--')
plt.plot(epochs, val_metrics, 'ro-')
plt.title('Training and validation '+ metric)
plt.xlabel("Epochs")
plt.ylabel(metric)
plt.legend(["train_"+metric, 'val_'+metric])
plt.show()
plot_metric(history,"loss")
plot_metric(history,"accuracy")
#可以使用evaluate对数据进行评估
val_loss,val_accuracy = model.evaluate(ds_test,workers=4)
print(val_loss,val_accuracy)
可以使用model.predict(ds_test)
进行预测:
model.predict(ds_test)
或者也可以使用model.predict_on_batch(x_test)
对一个批量进行预测。
for x,y in ds_test.take(1):
print(model.predict_on_batch(x[0:20]))
推荐使用TensorFlow原生方式保存模型:
# 保存权重,该方式仅仅保存权重张量
model.save_weights('../../data/tf_model_weights.ckpt',save_format = "tf")
保存模型结构与模型参数到文件,该方式保存的模型具有跨平台性便于部署:
model.save('../../data/tf_model_savedmodel', save_format="tf")
print('export saved model.')
model_loaded = tf.keras.models.load_model('../../data/tf_model_savedmodel')
model_loaded.evaluate(ds_test)
[1] 《30天吃掉那只Tensorflow2》
[2] CNN网络结构的发展
[3] 深度学习算法之卷积神经网络(CNN)