继续来写我的学习笔记 -----二分类问题
我从数据的处理,模型的构架,训练过程,验证模型及损失和精度的比较这几个方面来介绍。
一个典型的二分类问题的例子:根据电影的评论的文字内容将评论的文字划分为正面和负面。
我们使用IMDB数据集,它包含50000条严重两极分化的评论,数据集被分为用于训练和测试的数据各25000条。数据集和测试集都包含50%的正面评论和50%的负面评论。
下列代码将会加载IMDB数据集:
from keras.datasets import imdb
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)
参数num_words=10000的意思是仅保留训练数据前10000个常见的单词。低频单词将被舍弃。
train_data和test_data这两个变量是评论组成的列表,每条评论又是单词索引组成的列表。train_labels和test_labels都是0和1组成的列表。0代表负面,1代表正面。这一步是下载数据,接下来我们要做的是准备数据。
我们要将数据输入网络,必须进行将列表向张量的转换。
下面这段代码是将数据向量化.
import numpy as np
def vectorize_sequences(sequences,dimension=10000):
results = np.zeros((len(sequences),dimension))
for i,sequence in enumerate(sequences):
results[i,sequence]=1.
return results
x_train=vectorize_sequences(train_data)
x_test=vectorize_sequences(test_data)
y_train=np.asarray(train_labels).astype('float32')
y_test =np.asarray(test_labels).astype('float32')
我们可以发现输入数据是向量,而标签是标量。对于这种情况,我们可以选用带有relu激活的全连接层(Dense)的简单堆叠,比如Dense(16,activation=‘relu’)。所以我们选择的网络构架为:两个中间层,每层都有16个隐藏单元。第三层输出一个标量,预测当前评论的情感。中间层使用relu作为激活函数,最后一层使用sigmoid激活以输出一个0~1范围内的概率值(表示样本的目标值等于1的可能性,即评论为正面性)。relu函数将所有负值归零,而sigmoid函数则将任意值“压缩”到[0,1]区间内,其输出值可以看作概率值。下图为Relu函数图像:
该图为Sigmoid激活函数图像:
from keras import models
from keras import layers
model = models.Sequential()
model.add(layers.Dense(16,activation='relu',input_shape=(10000,)))
model.add(layers.Dense(16,activation='relu'))
model.add(layers.Dense(1,activation='sigmoid'))
最后,我们选择损失函数和优化器。由于网络输出是一个概率值,那么我们选择二元交叉熵损失是一个比较好的选择,下面代码是配置损失函数和优化器:
model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['accuracy'])
下面给出代码:
from keras.datasets import imdb
import numpy as np
from keras import models
from keras import layers
import matplotlib.pyplot as plt
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)
def vectorize_sequences(sequences,dimension=10000):
results = np.zeros((len(sequences),dimension))
for i,sequence in enumerate(sequences):
results[i,sequence]=1.
return results
x_train=vectorize_sequences(train_data)
x_test=vectorize_sequences(test_data)
y_train=np.asarray(train_labels).astype('float32')
y_test =np.asarray(test_labels).astype('float32')
print(x_train[0])
x_val=x_train[:10000]
partial_x_train=x_train[10000:]
y_val = y_train[:10000]
partial_y_train=y_train[10000:]
model = models.Sequential()
model.add(layers.Dense(16,activation='relu',input_shape=(10000,)))
model.add(layers.Dense(16,activation='relu'))
model.add(layers.Dense(1,activation='sigmoid'))
model.compile(optimizer='rmsprop',
loss='binary_crossentropy',
metrics=['accuracy'])
history=model.fit(partial_x_train,
partial_y_train,
epochs=20,
batch_size=512,
validation_data=(x_val,y_val))
history_dict=history.history
loss_values=history_dict['loss']
val_loss_values=history_dict['val_loss']
epochs=range(1,len((loss_values)+1))
plt.plot(epochs,loss_values,'bo',label='Training loss')
plt.plot(epochs,val_loss_values,'b',label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()