深度学习的核心组件
1、层
可以将层看作深度学习的乐高积木,在 Keras 中,构建深度学习模型就是将相互兼容的多个层拼接在一起,以建立有用的数据变换流程
层兼容性(layer compatibility):每一层接受特定形状的输入张量,返回特定形状的输出张量
注意:Keras构建网络的过程中,第一层需要显示输入形状
input_shape=(xxx)
后续的层不需要输入形状,因为可以从上一层中推导得出
2、模型
深度学习模型是层构成的有向无环图,一个模型就是一个网络拓扑结构,选定了一个模型就意味着定义了一个假设空间(hypothesis space),也就意味着将假设空间限定为一系列特定的张量运算,将输入数据映射为输出数据。
"温故知新"机器学习的一种定义:在预先定义好的假设空间中,利用反馈信号的指引来寻找输入数据的有用表示
3、损失函数与优化器
一般损失函数的选择:
二分类问题:二元交叉熵(binary crossentropy)损失函数;
多分类问题:分类交叉熵(categorical crossentropy)损失函数;
回归问题:均方误差(MSE,mean-squared error)损失函数;
序列学习问题:联结主义时序分类(CTC,connectionist temporal classification)损失函数
Keras开发基本流程
(1) 定义训练数据:输入张量和目标张量。
(2) 定义层组成的网络(或模型),将输入映射到目标。(构建模型)
(3) 配置学习过程:选择损失函数、优化器和需要监控的指标。(编译)
(4) 调用模型的 fit 方法在训练数据上进行迭代。(训练)
Keras示例
二分类问题
数据来源:互联网电影数据库(IMDB)的50000条严重两极分化的评论
训练集25000条,测试集25000条
from keras.datasets import imdb
from keras import models, layers
import numpy as np
##1、加载IMDB数据集
(train_data, train_labels),(test_data, test_labels) = imdb.load_data(num_words=10000)
##2、数据预处理(转换成可输入到神经网络的张量)
def vectorize_sequences(sequences, dimension=10000):
results = np.zeros((len(sequences),dimension))
for i,sequence in enumerate(sequences):
results[i,sequence] = 1
#注意这里的sequence是个列表
#也就是说第一次循环的时候results[0,list] = 1
#这里其实隐含了一个循环 所做的操作是将results[i]的其中的指定索引设置为1
return results
x_train = vectorize_sequences(train_data) # 训练数据向量化
x_test = vectorize_sequences(test_data) # 测试数据向量化
y_train = np.asarray(train_labels).astype('float32') #训练标签向量化
y_test = np.asarray(test_labels).astype('float32') #测试标签向量化
#输入数据是向量,而标签是标量(1和0)
##3、定义模型
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))
##4、编译模型
model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['accuracy'])
##5、训练模型
x_val = x_train[:10000] # 这里留出一部分作为验证集
partial_x_train = x_train[10000:]
y_val = y_train[:10000]
partial_y_train = y_train[10000:]
history = model.fit(partial_x_train,
partial_y_train,
epochs=20,
batch_size=512,
validation_data=(x_val, y_val))
## 6、在测试集(新数据)上生成预测结果 or 评估模型
model.predict(x_test)
results = model.evaluate(x_test,y_test)
多分类问题
数据来源:路透社数据集,它包含许多短新闻及其对应的主题
训练集8982条,测试集2246条
from keras.datasets import reuters
import numpy as np
from keras.utils.np_utils import to_categorical
from keras import models, layers
##1、加载路透社数据集
(train_data, train_labels),(test_data, test_labels)
= reuters.load_data(num_words=10000)
##2、数据预处理(转换成可输入到神经网络的张量)
def vectorize_sequences(sequences, dimension=10000):
results = np.zeros((len(sequences),dimension))
for i,sequence in enumerate(sequences):
results[i,sequence] = 1
return results
x_train = vectorize_sequences(train_data) # 训练数据向量化
x_test = vectorize_sequences(test_data) # 测试数据向量化
y_train = to_categorical(train_labels) #训练标签分类编码
y_test = to_categorical(test_labels) #测试标签分类编码
##3、定义模型
model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))
##4、编译模型
model.compile(optimizer='rmsprop',
loss='categorical_crossentropy',
metrics=['accuracy'])
##5、训练模型
x_val = x_train[:1000] # 这里留出一部分作为验证集
partial_x_train = x_train[1000:]
y_val = y_train[:1000]
partial_y_train = y_train[1000:]
history = model.fit(partial_x_train,
partial_y_train,
epochs=20,
batch_size=512,
validation_data=(x_val, y_val))
## 6、在测试集(新数据)上生成预测结果or评估模型
predictions = model.predict(x_test)
#predictions中的每个元素都是长度为46的向量,向量的所有元素总和为1。
np.sum(predictions[0]) #输出1
np.argmax(predictions[0]) #最大的元素就是预测的类别,即概率最大的类别
results = model.evaluate(x_test,y_test)
注意:除了使用one-hot编码标签的方式,还可以使用另一种编码标签的方式-整型
使用的损失函数为 sparse_categorical_crossentropy
回归问题
数据来源: 20世纪70年代中期波士顿郊区房价信息
训练集: 404条 测试集: 102条
from keras.datasets import boston_housing
from keras import models, layers
import numpy as np
##1、加载数据
(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()
##2、数据预处理(转换成可输入到神经网络的张量)
输入数据的每个特征(比如犯罪率)都有不同的取值范围。
例如,有些特性是比例,取值范围为 0~1;有的取值范围为 1~12;还有的取值范围为0~100,等等
取值范围差异很大的数据输入到神经网络中,这是有问题的。
网络可能会自动适应这种取值范围不同的数据,但学习肯定变得更加困难
解决策略:
对每个特征做标准化,即对于输入数据的每个特征(输入数据矩阵中的列),减去特征平均值,再除以标准差
这样得到的每个特征平均值为0,标准差为1
#特征标准化
mean = train_data.mean(axis=0)
std = train_data.std(axis=0)
train_data -= mean
train_data /= std
test_data -= mean
test_data /= std
##3、构建模型(由于后续需要构建多个模型,所以直接写个函数)
def build_model():
model = models.Sequential()
model.add(layers.Dense(64, activation='relu',input_shape=(train_data.shape[1],)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(1)) #标量回归
model.compile(optimizer='rmsprop', loss='mse', metrics=['mae'])
return model
##4、K折验证策略(解决样本数太少)
k=4
all_mae_histories = []
num_val_samples = len(train_data) // k
num_epochs = 100
for i in range(k):
print('processing fold #', i)
val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]
val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]
partial_train_data = np.concatenate([train_data[:i * num_val_samples],
train_data[(i + 1) * num_val_samples:]], axis=0)
#准备训练数据:其他所有分区的数据
partial_train_targets = np.concatenate( [train_targets[:i * num_val_samples],
train_targets[(i + 1) * num_val_samples:]], axis=0)
model = build_model()
history = model.fit(partial_train_data,
partial_train_targets,
epochs=num_epochs,
batch_size=1, verbose=0)
mae_history = history.history['val_mean_absolute_error']
all_mae_histories.append(mae_history)
##5、训练最终模型
通过上述的训练之后可以通过plot得到训练最佳轮次,另外还可以去尝试更改层数、隐藏单元个数
model = build_model()
model.fit(train_data, train_targets,epochs=80, batch_size=16, verbose=0)
test_mse_score, test_mae_score = model.evaluate(test_data, test_targets)
>>> test_mae_score 2.5532484335057877
预测的房价和实际价格相差约 2550 美元。
K折验证: 将可用数据划分为K个分区(K通常取4或5),实例化K个相同的模型,将每个模型在K-1个分区上训练,并在剩下的一个分区上进行评估。模型的验证分数等于K个验证分数的平均值。