Keras学习(3)——第一个多分类

在实际应用中,遇到最多的还是多分类。如果你已经根据教程(2)实现了二分类,那么本篇几乎不需要花费多少额外的功夫。

1. 概念约定

为方便后续讲解,约定如下:

  • x, y:分别代表整个数据集的特征、类别
  • x_train, y_train:分别代表训练集的特征、类别
  • x_test, y_test:分别代表测试集的特征、类别

2. 分步搭建

  • 数据载入

本例同样采用Scikit-Learn自带的数据集Iris,一个4维输入特征、3-class实数数据集,只不过无需再处理成二分类。数据载入后,除了可以通过.data获取x,通过.target获取y外,还可以通过.feature_names获取特征名,通过.target_names获取类别名(用于翻译模型预测的类别值)。

from sklearn.datasets import load_iris
data_set = load_iris()
print(data_set.feature_names)
print(data_set.target_names)
x = data_set.data
y = data_set.target
  • 数据预处理

数据预处理的操作很多,本篇暂不进行x的预处理,仅处理y。Scikit-Learn已经帮我们把类别编码成了数字,不过是一维数组(None, )(样本的个数不固定,用None表示),而Keras多分类接受的类别输入是一个二维数组,是y的one-hot编码形式。one-hot编码,简单来讲,就是将原来由0开始的类别值转换成向量,比如3个类别0,1,2,那么类别向量长度为3,以原类别值作为位置索引,对应位置置为1,其它位置置为0,即类别0对应:[1, 0, 0],类别1对应[0, 1, 0],类别2对应[0, 0, 1]。全部转换后,y变为二维数组(None,3),可以打印前3行看看。

from keras.utils.np_utils import to_categorical
y = to_categorical(y, 3)
print(y.shape)
print(y[0:3, :])
[[1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]
  • 定义模型

注意在多分类问题中,输出层的神经元个数定义为类别的个数,激活函数用softmax。

from keras.models import Sequential
model = Sequential()
from keras.layers import Dense
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=3, activation='softmax'))
  • 编译模型

多分类问题的损失函数需要用categorical_crossentropy。

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
  • 训练模型
model.fit(x, y, epochs=100, batch_size=10)
  • 评估模型
result = model.evaluate(x, y)
print(result[1])
  • 模型预测

predict输出概率矩阵,每一行对应预测值在三个类别上的概率;predict_classes输出类别值,可以分别打印前三行看一下格式。

proba = model.predict(x)
print(proba[0:3])
classes = model.predict_classes(x)
print(classes[0:3])
[[9.6998018e-01 2.9562058e-02 4.5775421e-04]
 [9.3596870e-01 6.2290531e-02 1.7408483e-03]
 [9.6063405e-01 3.8569074e-02 7.9696754e-04]]
[0 0 0]
  • 类别翻译
target_names = data_set.target_names
classes_names = [target_names[index] for index in classes]
print(classes_names)

3. 完整代码

# /usr/bin/env python
from sklearn.datasets import load_iris
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense

data_set = load_iris()
print(data_set.feature_names)
print(data_set.target_names)
x = data_set.data
y = data_set.target

y = to_categorical(y, 3)
print(y.shape)
print(y[0:3, :])

model = Sequential()
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=3, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.fit(x, y, epochs=100, batch_size=10)

result = model.evaluate(x, y)
print(result[1])

proba = model.predict(x)
print(proba[0:3])
classes = model.predict_classes(x)
print(classes[0:3])

target_names = data_set.target_names
classes_names = [target_names[index] for index in classes]
print(classes_names)

4. 代码规整

上述代码主要是为了方便大家理解,所有操作一条线顺下来。在以后的教程中会陆续涉及Keras模型包装、多核并行等内容,到时需要将主程序以及模型定义等代码独立函数出来,下面演示一下比较规范的代码样例。

# /usr/bin/env python
from sklearn.datasets import load_iris
from keras.utils.np_utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense


def load_data():
    data_set = load_iris()
    x_names = data_set.feature_names
    y_names = data_set.target_names
    x = data_set.data
    y = data_set.target
    y = to_categorical(y)
    return x, y, x_names, y_names


def create_model(input_dim, output_dim, units_list, activation = 'relu', optimizer = 'adam'):
    model = Sequential()
    model.add(Dense(units=units_list[0], input_dim=input_dim, activation=activation))
    for units in units_list[1:]:
        model.add(Dense(units=units, activation=activation))
    model.add(Dense(units=output_dim, activation='softmax'))

    model.compile(loss='categorical_crossentropy', optimizer=optimizer, metrics=['accuracy'])

    model.summary()
    
    return model


def main():
    x, y, x_names, y_names = load_data()
    print(x_names)
    print(y_names)

    model = create_model(input_dim=4, output_dim=3, units_list=[12, 6])

    model.fit(x, y, epochs=100, batch_size=10)

    result = model.evaluate(x, y)
    print(result[1])

    proba = model.predict(x)
    print(proba[0:3])
    classes = model.predict_classes(x)
    print(classes[0:3])

    classes_names = [y_names[index] for index in classes]
    print(classes_names)


if __name__ == '__main__':
    main()

你可能感兴趣的:(Keras学习(3)——第一个多分类)