Keras学习(2)——Hello World

本篇将手把手教你实现第一个最简单的深度神经网络模型,基于多层感知器的二分类。

1. 基本概念

  • 多层感知器:MLP,神经网络模型的一种,其它常见的还有卷积神经网络、循环神经网络等

2. 分步搭建

  • 数据载入

本例采用机器学习经典数据集Iris,一个4维输入特征、3-class实数数据集。Scikit-Learn自带该数据集,无需单独下载。由于该数据集是3分类(class取值[0, 1, 2]),需要先将其处理成二分类,这里采用的方法为将非2的都替换为0,为2的设置为1,作为主类别。(注意,二分类对0、1敏感,请将主类别设置为1;多分类不存在此问题,0、1、2不存在主次之分)

from sklearn.datasets import load_iris
import numpy as np
data_set = load_iris()
x = data_set.data
y = data_set.target
y = np.where(y == 2, 1, 0)
  • 定义模型

这里定义的模型具有一个输入层、一个隐藏层、一个输出层,神经元个数分别为4、8、1。其中输入层和隐藏层写到一起了,其实是两层,用input_dim指定输入层的神经元个数。输入层的神经元个数必须为输入特征维度,隐藏层的神经元个数可以随意定,输出层的神经元个数在二分类问题中固定为1。至于激活函数,如果暂时不想深入了解,那么记住隐藏层都用relu,输出层二分类用sigmoid,多分类用softmax,回归不设置激活函数。

from keras.models import Sequential
model = Sequential()
from keras.layers import Dense
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))
  • 编译模型

模型编译时需要指定损失函数。损失函数,代表预测值与实际值的差距程度,损失函数越小,代表模型拟合程度越好,如果暂时不想深入了解,那么记住,二分类用binary_crossentropy,多分类用categorical_crossentropy,回归用mse(均方误差)。metrics字段指定度量模型的标准,分类问题一律用accuracy,回归用mse。optimizer字段指定优化器,即权重更新的方法,最最基本的优化器是SGD,新手不要用,需要自己指定很多参数;除了SGD,Keras提供了很多封装好的优化器,比如又考虑了一阶动量又考虑了二阶动量的adam,在adam基础上又加入局部最优动荡解决方案的nadam;搞不清楚没关系,无脑用adam。

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
  • 训练模型

模型训练时需要指定周期epochs和批次大小batch_size。周期指的是训练过程中数据将被“轮”多少次,跟人看书一样,看一遍未必理解深入,需要一遍又一遍地看,尤其当训练数据较少的时候(轮的次数也不能太多,否则容易过拟合)。批次大小指的是一轮输入中,每次输入样本多少个,即参数更新的粒度,这里批次大小设置为10,表示每次读入10个样本,计算这10个样本的损失函数,更新权重,然后再读入10个样本。批次大小不能太大,一次性看完一本书人也消化不了,也不能太小,一次看一页,学到的东西会很散乱,对于一般的神经网络,没有太严格的要求,差不多就行;不过后面会遇到stateful 循环神经网络,那里的批次大小就不能随便设了。

model.fit(x, y, epochs=100, batch_size=10)
  • 评估模型

在实际应用中,数据集是分为训练集、测试集的;用训练集训练,用测试集去评估训练的模型好坏(这里仅为演示基本的使用,所以没做拆分);注意理解:在训练集上表现差那么模型肯定差,在训练集上表现好那么模型不一定好(有可能过拟合)。另外,评估的结果会有好多个值,我们取第二个,即accuracy即可。

result = model.evaluate(x, y)
print(result[1])
  • 模型预测

在Keras中,模型预测函数有好几个,predict、predict_proba、predict_classes,前两个功能是一样的,都是输出概率值,第三个会输出类别标签,默认概率大于0.5认为是1。(如果有用过Scikit-Learn的童鞋会发现,Keras的预测函数与Scikit-Learn有很大的区别,Scikit-Learn里没有predict_classes,其predict方法会直接输出类别标签,而非概率值,想输出概率值得单独调用predict_proba;Scikit-Learn里的模型评估方法也不是evaluate,而是score;此外,两者要求的类别标签输入格式也不一样;后面在Keras模型包装部分会详细讲解这些区别)

proba = model.predict(x)
print(proba)
classes = model.predict_classes(x)
print(classes)

3. 完整代码

# /usr/bin/env python
from sklearn.datasets import load_iris
from keras.models import Sequential
from keras.layers import Dense
import numpy as np

data_set = load_iris()
x = data_set.data
y = data_set.target
y = np.where(y == 2, 1, 0)

model = Sequential()
model.add(Dense(units=8, input_dim=4, activation='relu'))
model.add(Dense(units=1, activation='sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

model.fit(x, y, epochs=100, batch_size=10)

result = model.evaluate(x, y)
print(result[1])

proba = model.predict(x)
print(proba)

classes = model.predict_classes(x)
print(classes)

你可能感兴趣的:(Keras学习(2)——Hello World)