一开始使用的是alexnet模型,最好达到了99.271的成绩。在成绩榜上大概应在20%左右。所以还想继续改进一下模型,一开始想的是使用修改超参数,以及加入随机失活,bn层,应用了数据增强。先说一下超参数的改变:更改过滤器的数量,更改batch_size,应用了学习率退火。
改动:应用了自己上一个笔记中讲的模型,更改了第一个第二个的卷积层的过滤器数量。
结果:一个epoch的运行时间并没有太大的变化,最初的验证集的准确率有所升高,损失值有下降,但是最后提交的准确率也没有太大的变化。
改动:将batch_size从200降到了100。
结果:一个epoch的运行时间快了一点。验证集的准确率最后提升了一点,但提交后的成绩反而下降了,可能是减少的batch_size不能更好的模拟完整的训练集。
一开始的学习率可能在起始时表现的很好,但在训练一段时间过后,可能一直达不到最优值,这时候就可以减少学习率来慢慢达到最优值。
改动:
learning_rate_reduction = ReduceLROnPlateau(monitor='val_loss',
patience=3,
verbose=1,
factor=0.5,
min_lr=0.00001)
监督的值,过几个回合,乘以0.5,最小的学习率(keras中文文档)
model.fit(train_images, train_labels, validation_data=(validation_images, validation_labels), epochs=60, batch_size=100, verbose=2,callbacks=[learning_rate_reduction])
这里应用了回调函数来使用学习率退火。
结果:同上述参数改动一样,结果并没有什么太大的改变,但是在最后几次epoch中,确实都更要接近最优值,更稳定。
我们通过几次参数的改变还有数据增强都没有使得最终的成绩有所提高,有些改变还使得成绩下降。所以猜测可能是模型不够复杂,不能够表达更复杂的式子,模型本身的性能,容量限制了它的提升。所以后来采用了更深的类VGG模型。
改动:
model.add(Convolution2D(filters = 32, kernel_size = (5,5),padding = 'Same',
activation ='relu', input_shape = (28,28,1)))
model.add(Convolution2D(filters = 32, kernel_size = (5,5),padding = 'Same',
activation ='relu'))
model.add(MaxPooling2D(pool_size=(2,2)))
model.add(Dropout(0.25))
model.add(Convolution2D(filters = 64, kernel_size = (3,3),padding = 'Same',
activation ='relu'))
model.add(Convolution2D(filters = 64, kernel_size = (3,3),padding = 'Same',
activation ='relu'))
model.add(MaxPooling2D(pool_size=(2,2), strides=(2,2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(256, activation = "relu"))
model.add(Dropout(0.5))
model.add(Dense(10, activation = "softmax"))
结果:运行一次epoch时间增加很多,成绩提升到了99.5左右。
改动:在每个卷积层使用BN。
结果:发现模型收敛的更快,使用更少的步骤就能达到一样的准确率。但是可能对准确率很高的模型并没有太大的提升。
改动:在每个fc层加入dropout
结果:最后的准确率有所提升。看来dropout还是能控制过拟合。
在keras文档中,有对图片预处理的函数。利用一个图片迭代器。各参数都有介绍。
数据增强:通过改变灰度,旋转等方法来使图片稍有不同,保持标签不同,这能有效的控制过拟合,提升模型的泛化能力。
datagen = ImageDataGenerator(
featurewise_center=False, # set input mean to 0 over the dataset
samplewise_center=False, # set each sample mean to 0
featurewise_std_normalization=False, # divide inputs by std of the dataset
samplewise_std_normalization=False, # divide each input by its std
zca_whitening=False, # apply ZCA whitening
rotation_range=10, # randomly rotate images in the range (degrees, 0 to 180)
zoom_range = 0.1, # Randomly zoom image
width_shift_range=0.1, # randomly shift images horizontally (fraction of total width)
height_shift_range=0.1, # randomly shift images vertically (fraction of total height)
horizontal_flip=False, # randomly flip images
vertical_flip=False) # randomly flip images
使用了图片生成器在fit中要使用fit_generator。.flow()接收numpy数组和标签为参数,生成经过数据提升或标准化后的batch数据,并在一个无限循环中不断的返回batch数据.
history = model.fit_generator(datagen.flow(train_images, train_labels, batch_size=86),
epochs = 30, validation_data = (validation_images,validation_labels),
verbose = 2, steps_per_epoch=train_images.shape[0] // 86
, callbacks=[learning_rate_reduction])
这里要注意的是,fit与fit_generator的区别。fit_generator里的一个epoch里包含的是steps_per_epoch * batch_size。steps_per_epoch应该等于你数据集的数量除以batch_size。
结果:发现成绩大有提升!提升到了99.678。
我们在想要改变参数时,首先要考虑的是整个网络结构。整个网络是不是性能足够,容量足够来通过改变参数得到更好的结果。所以现在的网络都是想要做的更深,因为更深的网络能过表达更复杂的式子,模型的容量更大。
BN层能够加速模型的训练,收敛速度。并且不需要很仔细参数的初始化,还能使用更高的学习率。
dropout能够很好地控制过拟合。
数据增强很强大,增大训练集数量,提升模型的泛化能力。
batch_size应该有一个比较合理的范围,不能盲目地增大,缩小。
学习率退火有利于找到一个最优值。