使用keras框架进行猫狗分类

使用keras框架进行猫狗分类

  • 一 .卷积运算
  • 二.准备数据集
  • 2.1 从 Kaggle官网中下载数据集
  • 2.2 通过脚本制作数据集分类
  • 三.构建网络
  • 四.数据预处理
  • 五.使用图像增强技术

一 .卷积运算

密集连接层和卷积层的根本区别在于,Dense层,从输入特征空间中学到的是全局模式。(比如对于MNIST数字,全局模式就是涉及所有像素的模式),而卷积学到的是局部模式,这让卷积具备了两个性质。

  • 平移不变性:卷积神经网络在图像右下角学到某个模式后,它在任何地方可以识别这个模式。比如说左上角。对于密集连接层来说,如果模式出现在新的位置,只能重新学习。这让卷积神经网络具有平移不变性。
  • 学习到模式空间结构。

二.准备数据集

2.1 从 Kaggle官网中下载数据集

猫狗分类的数据集不包含在Keras中,它是由2013年末公开并作为一项计算机视觉竞赛的一部分,当时卷积神经网络还不是主流算法。
数据集下载地址
https://www.kaggle.com/c/dogs-vs-cats/data

2.2 通过脚本制作数据集分类

创建数据集,验证集,和测试集。并且在每个目录下分别创建猫和狗的图片保存路径。

import os, shutil
original_dataset_dir ='D:/DownloadEI/train'
base_dir = 'D:/严少青毕设/CNN-BiLSTM/cnn-bilstm/base_data'
if not os.path.exists(base_dir):
    os.makedirs(base_dir)
train_dir = os.path.join(base_dir,'train')
if not os.path.exists(train_dir):
    os.makedirs(train_dir)
validation_dir = os.path.join(base_dir,'validation')
if not os.path.exists(validation_dir):
    os.makedirs(validation_dir)
test_dir = os.path.join(base_dir,'test')
if not os.path.exists(test_dir):
    os.makedirs(test_dir)
train_cats_dir = os.path.join(train_dir,'cat')
if not os.path.exists(train_cats_dir):
    os.makedirs(train_cats_dir)
train_dogs_dir = os.path.join(train_dir,'dog')
if not os.path.exists(train_dogs_dir):
    os.makedirs(train_dogs_dir)
validation_cats_dir = os.path.join(validation_dir,'cat')
if not os.path.exists(validation_cats_dir):
    os.makedirs(validation_cats_dir)
validation_dogs_dir = os.path.join(validation_dir,'dog')
if not os.path.exists(validation_dogs_dir):
    os.makedirs(validation_dogs_dir)
test_cats_dir = os.path.join(test_dir,'cat')
if not os.path.exists(test_cats_dir):
    os.makedirs(test_cats_dir)
test_dogs_dir = os.path.join(test_dir,'dog')
if not os.path.exists(test_dogs_dir):
    os.makedirs(test_dogs_dir)

将下载数据集导入新建的文件目录下:

frames = ['cat.{}.jpg'.format(i) for i in range(1500,2000)]
for frame in frames:
    src = os.path.join(original_dataset_dir,frame)
    dst = os.path.join(test_cats_dir,frame)
    shutil.copyfile(src,dst)
frames = ['dog.{}.jpg'.format(i) for i in range(1000)]
for frame in frames:
    src = os.path.join(original_dataset_dir,frame)
    dst = os.path.join(train_dogs_dir,frame)
    shutil.copyfile(src,dst)
frames = ['dog.{}.jpg'.format(i) for i in range(1000,1500)]
for frame in frames:
    src = os.path.join(original_dataset_dir,frame)
    dst = os.path.join(validation_dogs_dir,frame)
    shutil.copyfile(src,dst)
frames = ['dog.{}.jpg'.format(i) for i in range(1500,2000)]
for frame in frames:
    src = os.path.join(original_dataset_dir,frame)
    dst = os.path.join(test_dogs_dir,frame)
    shutil.copyfile(src,dst)

三.构建网络

在MINIST识别数字这篇博客中,构建了一个小型卷积神经网络。这里复用整体的结构,即卷积神经网络使用Conv2层(使用relu进行激活)和MaxPooling2D层交替堆叠构成。

但是这里处理的是更大的图像,需要相应的增加网络,即再增加一个Conv2D+MaxPooling2D的组合,这可以增加网络尺寸,降低特征图大小,使其连接Flatten时候尺寸不会太大。本例中输入尺寸是150*150,最后连接Flatten层大小为7*7。

因为这个问题是二分类问题,网络最后一层使用sigmoid层进行激活。

from keras import  models
from keras import  layers
import os
network = models.Sequential()
network.add(layers.Conv2D(32,(3,3),activation='relu',input_shape=(150,150,3)))
network.add(layers.MaxPool2D(2,2))
network.add(layers.Conv2D(64,(3,3),activation='relu'))
network.add(layers.MaxPool2D(2,2))
network.add(layers.Conv2D(128,(3,3),activation='relu'))
network.add(layers.MaxPool2D(2,2))
network.add(layers.Conv2D(128,(3,3),activation='relu'))
network.add(layers.MaxPool2D(2,2))
network.add(layers.Flatten())
network.add(layers.Dropout(0.5))
network.add(layers.Dense(512,activation='relu'))
network.add(layers.Dense(1,activation='sigmoid'))

定义优化器和损失函数

from keras import  optimizers
network.compile(optimizer=optimizers.RMSprop(learning_rate=1e-4),
                loss= 'binary_crossentropy',
                metrics='accuracy')

四.数据预处理

数据预处理的步骤如下:

  • (1)读取图像文件
  • (2) 将JPEG文件解码为RGB像素网络
  • (3)将这些像素转换为浮点张量
  • (4) 将像素值缩放到 0-1 区间
from keras.preprocessing.image import ImageDataGenerator
train_datagen = ImageDataGenerator(
    rescale= 1./255
)
test_datagen = ImageDataGenerator(rescale= 1./255)
train_generator = train_datagen.flow_from_directory(
    'D:/严少青毕设/CNN-BiLSTM/cnn-bilstm/base_data/train',
    target_size=(150,150),
    batch_size=20,
    class_mode='binary'
)
validation_generator = test_datagen.flow_from_directory(
    'D:/严少青毕设/CNN-BiLSTM/cnn-bilstm/base_data/validation',
    target_size=(150,150),
    batch_size=20,
    class_mode='binary'
)

它生成了150x150的RGB图像[形状为(20,150,150,3)]与二进制标签形状为【20,】组成的批量,生成器会不断生成这些批量,会不断循环目标文件夹的图像。

利用生成器我们可以让模型进行拟合,使用fit_generator方法进行拟合,它在数据生成器上效果与fit相同。它的第一个参数是Python生成器,可以不断的生成输入和目标批量。因为数据是不断生成的,每轮提取多少样本,这是steps_per_epoch参数的作用;运行了steps_per_epoch个梯度下降后,拟合进入下一轮次。验证集也是同理。

    history = network.fit_generator(
        train_generator,
        steps_per_epoch=100,
        epochs=100,
        validation_data=validation_generator,
        validation_steps=50
    )

在训练结束后保存模型

network.save('cats_dogs_small_1.h5')

五.使用图像增强技术

如果按照上述方式训练网络,训练精度随着时间线性增加,知道接近百分之百,而验证集精度则停留在70-72%之间。验证损失仅在第五轮后就达到最小值,然后保持不变。这是因为训练样本相对较少。我们要使用dropout和L2正则化来解决过拟合问题。

数据增强是计算机视觉领域的一种新方法,在深度学习处理图像的时候几乎都会用到这种方法,它就是数据增强。

过拟合是因为学习样本太少,导致无法训练处能够泛化到新数据的模型。如果拥有无限数据,模型就能学习到数据分布的所有内容,永远不会过拟合。数据增强是从现有的训练样本中生成更多的训练数据,其方法是利用多种能生产可信图像的随机变换来增加数据内容,从而具有泛化能力。

train_datagen = ImageDataGenerator(
    rescale= 1./255,
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True
)

开始训练

Found 1000 images belonging to 2 classes.
Epoch 1/100
100/100 [==============================] - 55s 538ms/step - loss: 0.6943 - accuracy: 0.5000 - val_loss: 0.6882 - val_accuracy: 0.5460

你可能感兴趣的:(深度学习,keras,分类,深度学习)