RNN和RNNcell层的区别在于前者能够处理整个序列,而后者一次只处理序列中一个时间点的数据,前者封装更完备易于使用,后者更具灵活性。RNN层可以通过组合调用RNNCell来实现。
例1:RNN
import torch as t
from torch.autograd import Variable as V
import torch.nn as nn
t.manual_seed(1000)
#batch_size 为3,句子长度为2,序列中每个元素占4维
input=V(t.randn(2,3,4))
#输入向量4维,3个隐藏元,1层
lstm=nn.LSTM(4,3,1)
#初始状态,1层,batch_size=3,3个隐藏元
h0=V(t.randn(1,3,3))
c0=V(t.randn(1,3,3))
out,hn=lstm(input,(h0,c0))
print(out)
#输出
tensor([[[-0.3610, -0.1643, 0.1631],
[-0.0613, -0.4937, -0.1642],
[ 0.5080, -0.4175, 0.2502]],
[[-0.0703, -0.0393, -0.0429],
[ 0.2085, -0.3005, -0.2686],
[ 0.1482, -0.4728, 0.1425]]], grad_fn=)
例2:RNNCell
# 一个LSTMCell对应的层数只能是一层
lstm=nn.LSTMCell(4,3)
hx=V(t.randn(3,3))
cx=V(t.randn(3,3))
out=[]
for i_ in input:
hx,cx=lstm(i_,(hx,cx))
out.append(hx)
print(t.stack(out))
#输出
tensor([[[-0.3610, -0.1643, 0.1631],
[-0.0613, -0.4937, -0.1642],
[ 0.5080, -0.4175, 0.2502]],
[[-0.0703, -0.0393, -0.0429],
[ 0.2085, -0.3005, -0.2686],
[ 0.1482, -0.4728, 0.1425]]], grad_fn=)
可以看到,两者输出的结果是一样的。
词向量在NLP中应用十分广泛,PyTorch同样提供了Embedding层。
# 有4个词,每个词用5维向量表示
embedding=nn.Embedding(4,5)
# 可以用预训练好的词向量初始化embedding
embedding.weight.data=t.arange(0,20).view(4,5)
# 行索引index=3,2,1 也就是说从预训练词向量中取前3个词向量,每个词向量5维
input=V(t.arange(3,0,-1)).long()
print(input.size())
out=embedding(input)
print(out)
#输出
torch.Size([3])
tensor([[15, 16, 17, 18, 19],
[10, 11, 12, 13, 14],
[ 5, 6, 7, 8, 9]], grad_fn=)