首先明确一点,RNN单元的输入输出的维度,点击参考keras.layers.RNN()文档
3D 张量,尺寸为 (batch_size, timesteps, input_dim)。
#参数
time_steps = 10
features = 2
input_shape = [time_steps, features]
batch_size = 32
model = Sequential()
model.add(LSTM(64, input_shape=input_shape, return_sequences=True))
model.add(LSTM(32,input_shape=input_shape))
model.summary()
>>>
Model: "sequential_1"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
lstm_2 (LSTM) (None, 10, 64) 17152
_________________________________________________________________
lstm_3 (LSTM) (None, 32) 12416
=================================================================
Total params: 29,568
Trainable params: 29,568
Non-trainable params: 0
调整模型,查看输出
model.add(LSTM(32,input_shape=(10000,10000))) #调整了第二层的input_shape
Model: "sequential_2"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
lstm_4 (LSTM) (None, 10, 64) 17152
_________________________________________________________________
lstm_5 (LSTM) (None, 32) 12416
=================================================================
Total params: 29,568
Trainable params: 29,568
Non-trainable params: 0
可以看到模型的输出维度并未改变。
如果第二层LSTM的return_sequences=True,会怎样?
model.add(LSTM(32,return_sequences=True))
Model: "sequential_3"
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
lstm_6 (LSTM) (None, 10, 64) 17152
_________________________________________________________________
lstm_7 (LSTM) (None, 10, 32) 12416
=================================================================
Total params: 29,568
Trainable params: 29,568
Non-trainable params: 0
从结果发现,两者之间的时间步都是10,也就是第一层的输入维度,也就是说,32并不是第二层LSTM单元的个数,而应该是每个时间步X的维度为32.第二层LSTM单元的个数仍然为10个。如果要更改时间步的数量,可使用masking层,点击见文档Masking
在每个时间步,LSTM-64将传递给LSTM-32形状为[batch_size,time_step,input_dim]的向量
看到这里,不禁要问,那输出中的第三个数,也就是我们的64,32是什么?答案是我们的每个时间步对应的特征的个数。
那是怎么从64变为32的呢?让我们从单个LSTM单元说起。
我们可以简单的将LSTM内部的各种计算想象成全连接的之间的矩阵计算。
所以units代表的不是一层单元的个数,而是单元内部隐藏层的大小。
对于LSTM而言,每个单元有3个门,对应了4个激活函数(3个sigmoid,一个tanh)。也就是说有4个神经元数量为32的前馈网络层。
对于LSTM的计算过程,我们这里举一个简单的例子:(此例转自对LSTM层的参数units 的理解)
假如我们样本的每一句话包含5个单词,每个单词用16维的词向量表示。对于LSTM(units=32),我们可以把LSTM内部的计算过程计算过程简化为:
Y=XW,这里X为(1,16)的向量,W为(16,32)的矩阵,所以运用矩阵乘法,将16维的X转化为32维的向量。
如下图所示
另外一张表示LSTM内部计算的图示。
from keras.models import Sequential
from keras.layers import LSTM, Dense
import numpy as np
data_dim = 16
timesteps = 8
num_classes = 10
# 期望输入数据尺寸: (batch_size, timesteps, data_dim)
model = Sequential()
model.add(LSTM(32, return_sequences=True,
input_shape=(timesteps, data_dim))) # 返回维度为 32 的向量序列
model.add(LSTM(32, return_sequences=True)) # 返回维度为 32 的向量序列
model.add(LSTM(32)) # 返回维度为 32 的单个向量
model.add(Dense(10, activation='softmax'))
model.compile(loss='categorical_crossentropy',
optimizer='rmsprop',
metrics=['accuracy'])
# 生成虚拟训练数据
x_train = np.random.random((1000, timesteps, data_dim))
y_train = np.random.random((1000, num_classes))
# 生成虚拟验证数据
x_val = np.random.random((100, timesteps, data_dim))
y_val = np.random.random((100, num_classes))
model.fit(x_train, y_train,
batch_size=64, epochs=5,
validation_data=(x_val, y_val))