在实际应用中,遇到最多的还是多分类。如果你已经根据教程(2)实现了二分类,那么本篇几乎不需要花费多少额外的功夫。
1. 概念约定
为方便后续讲解,约定如下:
- x, y:分别代表整个数据集的特征、类别
- x_train, y_train:分别代表训练集的特征、类别
- x_test, y_test:分别代表测试集的特征、类别
2. 分步搭建
-
数据载入
本例同样采用Scikit-Learn自带的数据集Iris,一个4维输入特征、3-class实数数据集,只不过无需再处理成二分类。数据载入后,除了可以通过.data获取x,通过.target获取y外,还可以通过.feature_names获取特征名,通过.target_names获取类别名(用于翻译模型预测的类别值)。
from sklearn.datasets import load_iris
data_set = load_iris()
print(data_set.feature_names)
print(data_set.target_names)
x = data_set.data
y = data_set.target
-
数据预处理
数据预处理的操作很多,本篇暂不进行x的预处理,仅处理y。Scikit-Learn已经帮我们把类别编码成了数字,不过是一维数组(None, )(样本的个数不固定,用None表示),而Keras多分类接受的类别输入是一个二维数组,是y的one-hot编码形式。one-hot编码,简单来讲,就是将原来由0开始的类别值转换成向量,比如3个类别0,1,2,那么类别向量长度为3,以原类别值作为位置索引,对应位置置为1,其它位置置为0,即类别0对应:[1, 0, 0],类别1对应[0, 1, 0],类别2对应[0, 0, 1]。全部转换后,y变为二维数组(None,3),可以打印前3行看看。
from keras.utils.np_utils import to_categorical
y = to_categorical(y, 3)
print(y.shape)
print(y[0:3, :])
[[1. 0. 0.]
[1. 0. 0.]
[1. 0. 0.]]
-
定义模型
注意在多分类问题中,输出层的神经元个数定义为类别的个数,激活函数用softmax。
from keras.models import Sequential
model = Sequential()
from keras.layers import Dense
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=3, activation='softmax'))
-
编译模型
多分类问题的损失函数需要用categorical_crossentropy。
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
-
训练模型
model.fit(x, y, epochs=100, batch_size=10)
-
评估模型
result = model.evaluate(x, y)
print(result[1])
-
模型预测
predict输出概率矩阵,每一行对应预测值在三个类别上的概率;predict_classes输出类别值,可以分别打印前三行看一下格式。
proba = model.predict(x)
print(proba[0:3])
classes = model.predict_classes(x)
print(classes[0:3])
[[9.6998018e-01 2.9562058e-02 4.5775421e-04]
[9.3596870e-01 6.2290531e-02 1.7408483e-03]
[9.6063405e-01 3.8569074e-02 7.9696754e-04]]
[0 0 0]
-
类别翻译
target_names = data_set.target_names
classes_names = [target_names[index] for index in classes]
print(classes_names)
3. 完整代码
# /usr/bin/env python
from sklearn.datasets import load_iris
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense
data_set = load_iris()
print(data_set.feature_names)
print(data_set.target_names)
x = data_set.data
y = data_set.target
y = to_categorical(y, 3)
print(y.shape)
print(y[0:3, :])
model = Sequential()
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=3, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(x, y, epochs=100, batch_size=10)
result = model.evaluate(x, y)
print(result[1])
proba = model.predict(x)
print(proba[0:3])
classes = model.predict_classes(x)
print(classes[0:3])
target_names = data_set.target_names
classes_names = [target_names[index] for index in classes]
print(classes_names)
4. 代码规整
上述代码主要是为了方便大家理解,所有操作一条线顺下来。在以后的教程中会陆续涉及Keras模型包装、多核并行等内容,到时需要将主程序以及模型定义等代码独立函数出来,下面演示一下比较规范的代码样例。
# /usr/bin/env python
from sklearn.datasets import load_iris
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense
def load_data():
data_set = load_iris()
x_names = data_set.feature_names
y_names = data_set.target_names
x = data_set.data
y = data_set.target
y = to_categorical(y)
return x, y, x_names, y_names
def create_model(input_dim, output_dim, units_list, activation = 'relu', optimizer = 'adam'):
model = Sequential()
model.add(Dense(units=units_list[0], input_dim=input_dim, activation=activation))
for units in units_list[1:]:
model.add(Dense(units=units, activation=activation))
model.add(Dense(units=output_dim, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer=optimizer, metrics=['accuracy'])
model.summary()
return model
def main():
x, y, x_names, y_names = load_data()
print(x_names)
print(y_names)
model = create_model(input_dim=4, output_dim=3, units_list=[12, 6])
model.fit(x, y, epochs=100, batch_size=10)
result = model.evaluate(x, y)
print(result[1])
proba = model.predict(x)
print(proba[0:3])
classes = model.predict_classes(x)
print(classes[0:3])
classes_names = [y_names[index] for index in classes]
print(classes_names)
if __name__ == '__main__':
main()