介绍
本文将学习和构建一个 CNN 模型,以从图像中对幼苗的种类进行分类。该数据集有12组图像,我们的最终目的是从图像中对植物物种进行分类。
如果你想了解有关数据集的更多信息,请查看此链接:https://www.kaggle.com/c/plant-seedlings-classification/data。
我们将执行多个步骤,例如导入库和模块、读取图像并调整它们的大小、图像清理、图像预处理、模型构建、模型训练、减少过度拟合,最后对测试数据集进行预测。
使用深度学习解决数独,查看这里:https://www.analyticsvidhya.com/blog/2021/05/solving-sudoku-from-image-using-deep-learning-with-python-code/
问题陈述
导入库
获取数据并调整图像大小
清理图像并去除背景
将标签转换为数字
定义我们的模型并拆分数据集
防止过拟合
定义卷积神经网络
将 CNN 拟合到数据上
混淆矩阵
获得预测
该数据集由奥尔胡斯大学信号处理小组提供。这是一个典型的图像识别问题陈述。我们提供了一个图像数据集,其中包含处于不同生长阶段的植物照片。每张照片都有其唯一的 ID 和文件名。
该数据集包含来自 12 个植物物种的 960 种独特植物。最终目标是构建一个能够从照片中确定植物种类的分类器。
物种列表
Black-grass
Charlock
Cleavers
Common Chickweed
Common wheat
Fat Hen
Loose Silky-bent
Maize
Scentless Mayweed
Shepherds Purse
Small-flowered Cranesbill
Sugar beet
首先导入所有必要的库以供我们进一步分析。我们将使用 NumPy、Pandas、matplotlib、OpenCV、Keras 和 sci-kit-learn。
检查以下命令以导入所有必需的库
import numpy as np # MATRIX OPERATIONS
import pandas as pd # EFFICIENT DATA STRUCTURES
import matplotlib.pyplot as plt # GRAPHING AND VISUALIZATIONS
import math # MATHEMATICAL OPERATIONS
import cv2 # IMAGE PROCESSING - OPENCV
from glob import glob # FILE OPERATIONS
import itertools
# KERAS AND SKLEARN MODULES
from keras.utils import np_utils
from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import Flatten
from keras.layers.convolutional import Conv2D
from keras.layers.convolutional import MaxPooling2D
from keras.layers import BatchNormalization
from keras.callbacks import ModelCheckpoint,ReduceLROnPlateau,CSVLogger
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
# GLOBAL VARIABLES
scale = 70
seed = 7
为了训练我们的模型,我们需要先读取数据。我们的数据集有不同大小的图像,因此我们将调整图像的大小。读取数据并调整其大小只需一步即可完成。查看以下代码以获取有关如何执行不同操作的完整信息。
path_to_images = 'plant-seedlings-classification/train/png'
images = glob(path_to_images)
trainingset = []
traininglabels = []
num = len(images)
count = 1
#READING IMAGES AND RESIZING THEM
for i in images:
print(str(count)+'/'+str(num),end='r')
trainingset.append(cv2.resize(cv2.imread(i),(scale,scale)))
traininglabels.append(i.split('/')[-2])
count=count+1
trainingset = np.asarray(trainingset)
traininglabels = pd.DataFrame(traininglabels)
这是执行清理的一个非常重要的步骤。清理图像是一项艰巨的任务。我们将执行以下步骤以清理图像
将 RGB 图像转换为 HSV
为了去除噪声,我们将不得不模糊图像
为了删除背景,我们将不得不创建一个遮罩。
new_train = []
sets = []; getEx = True
for i in trainingset:
blurr = cv2.GaussianBlur(i,(5,5),0)
hsv = cv2.cvtColor(blurr,cv2.COLOR_BGR2HSV)
#GREEN PARAMETERS
lower = (25,40,50)
upper = (75,255,255)
mask = cv2.inRange(hsv,lower,upper)
struc = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(11,11))
mask = cv2.morphologyEx(mask,cv2.MORPH_CLOSE,struc)
boolean = mask>0
new = np.zeros_like(i,np.uint8)
new[boolean] = i[boolean]
new_train.append(new)
if getEx:
plt.subplot(2,3,1);plt.imshow(i) # ORIGINAL
plt.subplot(2,3,2);plt.imshow(blurr) # BLURRED
plt.subplot(2,3,3);plt.imshow(hsv) # HSV CONVERTED
plt.subplot(2,3,4);plt.imshow(mask) # MASKED
plt.subplot(2,3,5);plt.imshow(boolean) # BOOLEAN MASKED
plt.subplot(2,3,6);plt.imshow(new) # NEW PROCESSED IMAGE
plt.show()
getEx = False
new_train = np.asarray(new_train)
# CLEANED IMAGES
for i in range(8):
plt.subplot(2,4,i+1)
plt.imshow(new_train[i])
标签是字符串,这些很难处理。因此,我们将这些标签转换为二元分类。
分类可以由 12 个数字组成的数组表示,这些数字将遵循以下条件:
如果未检测到物种,则为 0。
1 如果检测到该物种。
示例:如果检测到 Blackgrass,则数组将为 = [1,0,0,0,0,0,0,0,0,0,0,0]
labels = preprocessing.LabelEncoder()
labels.fit(traininglabels[0])
print('Classes'+str(labels.classes_))
encodedlabels = labels.transform(traininglabels[0])
clearalllabels = np_utils.to_categorical(encodedlabels)
classes = clearalllabels.shape[1]
print(str(classes))
traininglabels[0].value_counts().plot(kind='pie')
在这一步中,我们将拆分训练数据集进行验证。我们正在使用 scikit-learn 中的 train_test_split() 函数。这里我们拆分数据集,保持 test_size=0.1。这意味着总数据的 10% 用作测试数据,其余 90% 用作训练数据。检查以下代码以拆分数据集。
new_train = new_train/255
x_train,x_test,y_train,y_test = train_test_split(new_train,clearalllabels,test_size=0.1,random_state=seed,stratify=clearalllabels)
过拟合是机器学习中的一个问题,我们的模型在训练数据上表现非常好,但在测试数据上表现不佳。
在深度神经网络过度拟合的深度学习中,过度拟合的问题很严重。过度拟合的问题严重影响了我们的最终结果。
为了摆脱它,我们需要减少它。在这个问题中,我们使用 ImageDataGenerator() 函数随机改变图像的特征并提供数据的随机性。、为了避免过拟合,我们需要一个函数。此函数随机改变图像特性。检查以下代码以了解如何减少过度拟合
generator = ImageDataGenerator(rotation_range = 180,zoom_range = 0.1,width_shift_range = 0.1,height_shift_range = 0.1,horizontal_flip = True,vertical_flip = True)
generator.fit(x_train)
我们的数据集由图像组成,因此我们不能使用线性回归、逻辑回归、决策树等机器学习算法。我们需要一个用于图像的深度神经网络。在这个问题中,我们将使用卷积神经网络。该神经网络将图像作为输入,并将提供最终输出作为物种值。
我们随机使用了 4 个卷积层和 3 个全连接层。此外,我们使用了多个函数,如 Sequential()、Conv2D()、Batch Normalization、Max Pooling、Dropout 和 Flatting。
我们使用卷积神经网络进行训练。
该模型有 4 个卷积层。
该模型有 3 个全连接层。
np.random.seed(seed)
model = Sequential()
model.add(Conv2D(filters=64, kernel_size=(5, 5), input_shape=(scale, scale, 3), activation='relu'))
model.add(BatchNormalization(axis=3))
model.add(Conv2D(filters=64, kernel_size=(5, 5), activation='relu'))
model.add(MaxPooling2D((2, 2)))
model.add(BatchNormalization(axis=3))
model.add(Dropout(0.1))
model.add(Conv2D(filters=128, kernel_size=(5, 5), activation='relu'))
model.add(BatchNormalization(axis=3))
model.add(Conv2D(filters=128, kernel_size=(5, 5), activation='relu'))
model.add(MaxPooling2D((2, 2)))
model.add(BatchNormalization(axis=3))
model.add(Dropout(0.1))
model.add(Conv2D(filters=256, kernel_size=(5, 5), activation='relu'))
model.add(BatchNormalization(axis=3))
model.add(Conv2D(filters=256, kernel_size=(5, 5), activation='relu'))
model.add(MaxPooling2D((2, 2)))
model.add(BatchNormalization(axis=3))
model.add(Dropout(0.1))
model.add(Flatten())
model.add(Dense(256, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.5))
model.add(Dense(256, activation='relu'))
model.add(BatchNormalization())
model.add(Dropout(0.5))
model.add(Dense(classes, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.summary()
接下来是将 CNN 模型拟合到我们的数据集上,这样模型将从训练数据集中学习并更新权重。这个经过训练的 CNN 模型可以进一步用于获得对我们测试数据集的最终预测。
我们必须遵循一些先决条件,例如降低学习率、找到模型的最佳权重并保存这些计算出的权重,以便我们可以进一步使用它们进行测试和获得预测。
根据我们的常识,我们需要以下内容
模型的最佳权重
降低学习率
保存模型的最后权重
lrr = ReduceLROnPlateau(monitor='val_acc',
patience=3,
verbose=1,
factor=0.4,
min_lr=0.00001)
filepath="drive/DataScience/PlantReco/weights.best_{epoch:02d}-{val_acc:.2f}.hdf5"
checkpoints = ModelCheckpoint(filepath, monitor='val_acc',
verbose=1, save_best_only=True, mode='max')
filepath="drive/DataScience/PlantReco/weights.last_auto4.hdf5"
checkpoints_full = ModelCheckpoint(filepath, monitor='val_acc',
verbose=1, save_best_only=False, mode='max')
callbacks_list = [checkpoints, lrr, checkpoints_full]
#MODEL
# hist = model.fit_generator(datagen.flow(trainX, trainY, batch_size=75),
# epochs=35, validation_data=(testX, testY),
# steps_per_epoch=trainX.shape[0], callbacks=callbacks_list)
# LOADING MODEL
model.load_weights("../input/plantrecomodels/weights.best_17-0.96.hdf5")
dataset = np.load("../input/plantrecomodels/Data.npz")
data = dict(zip(("x_train","x_test","y_train", "y_test"), (dataset[k] for k in dataset)))
x_train = data['x_train']
x_test = data['x_test']
y_train = data['y_train']
y_test = data['y_test']
print(model.evaluate(x_train, y_train)) # Evaluate on train set
print(model.evaluate(x_test, y_test)) # Evaluate on test set
混淆矩阵是一种检查我们的模型如何处理数据的方法。这是分析模型错误的好方法。检查以下代码以获取混淆矩阵
# PREDICTIONS
y_pred = model.predict(x_test)
y_class = np.argmax(y_pred, axis = 1)
y_check = np.argmax(y_test, axis = 1)
cmatrix = confusion_matrix(y_check, y_class)
print(cmatrix)
在最后一部分,我们将获得对测试数据集的预测。
检查以下代码以使用经过训练的模型获取预测
path_to_test = '../input/plant-seedlings-classification/test/*.png'
pics = glob(path_to_test)
testimages = []
tests = []
count=1
num = len(pics)
for i in pics:
print(str(count)+'/'+str(num),end='r')
tests.append(i.split('/')[-1])
testimages.append(cv2.resize(cv2.imread(i),(scale,scale)))
count = count + 1
testimages = np.asarray(testimages)
newtestimages = []
sets = []
getEx = True
for i in testimages:
blurr = cv2.GaussianBlur(i,(5,5),0)
hsv = cv2.cvtColor(blurr,cv2.COLOR_BGR2HSV)
lower = (25,40,50)
upper = (75,255,255)
mask = cv2.inRange(hsv,lower,upper)
struc = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(11,11))
mask = cv2.morphologyEx(mask,cv2.MORPH_CLOSE,struc)
boolean = mask>0
masking = np.zeros_like(i,np.uint8)
masking[boolean] = i[boolean]
newtestimages.append(masking)
if getEx:
plt.subplot(2,3,1);plt.imshow(i)
plt.subplot(2,3,2);plt.imshow(blurr)
plt.subplot(2,3,3);plt.imshow(hsv)
plt.subplot(2,3,4);plt.imshow(mask)
plt.subplot(2,3,5);plt.imshow(boolean)
plt.subplot(2,3,6);plt.imshow(masking)
plt.show()
getEx=False
newtestimages = np.asarray(newtestimages)
# OTHER MASKED IMAGES
for i in range(6):
plt.subplot(2,3,i+1)
plt.imshow(newtestimages[i])
Newtestimages=newtestimages/255
prediction = model.predict(newtestimages)
# PREDICTION TO A CSV FILE
pred = np.argmax(prediction,axis=1)
predStr = labels.classes_[pred]
result = {'file':tests,'species':predStr}
result = pd.DataFrame(result)
result.to_csv("Prediction.csv",index=False)
所以在本文中,我们详细讨论了使用 CNN进行植物幼苗分类。希望你能从文中学到一些东西,它会在未来对你有所帮助。
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。
↓扫描二维码添加小编↓