import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
dataset = pd.read_csv('Iris.csv')
import seaborn as sns
sns.pairplot(dataset.iloc[:, 1:6], hue='Species')
将前4列与第5列分别抽离成np array
X = dataset.iloc[:, 1:5].values
y = dataset.iloc[:,5].values
此时X是这样
但是y还是字符串
所以我们要将y字符串数组转换成整数数组,在这里我们可以使用sklearn的LabelEncoder库
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
y1 = encoder.fit_transform(y)
Y = pd.get_dummies(y1).values
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
使用Sequential创建神经网络模型
模型一共4层
损失函数使用‘categorical_crossentropy’(比较适用于3种以上的分类的情况)
指定 metrics=[‘accuracy’],会在训练结束后计算训练数据在模型上的准确率
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
model = Sequential()
model.add(Dense(10, input_shape=(4,), activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(6, activation='relu'))
model.add(Dense(3, activation='softmax'))
model.compile(Adam(lr=0.04), 'categorical_crossentropy', metrics=['accuracy'])
model.summary()
指定epochs=100,训练数据会在模型中训练100次
model.fit(X_train, y_train, epochs=100)
y_pred = model.predict(X_test)
打印结果
浮点类型的数据不方便理解,所以使用np.argmax将数据转为整数数组
y_pred_class = np.argmax(y_pred, axis=1) //其实就是记录每个数组中值最大的数的index
以上就是得到预测数据的全过程,当然最后我们还是需要一个更直观的方式来评估模型准确率
from sklearn.metrics import classification_report
report = classification_report(y_test_class, y_pred_class)
print(report)
precision表示测试的数据是否都预测准确
recall表示需要查的数据是否都查到了
f1=2*(precision*recall)/(precision+recall)
support表示测试数据中属于各个分类的测试数据各有多少个
由此可观察到,此时测试数据在模型上的准确率达到了100%