Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)

用RNN做一个分类器,现在有一个数据集,数据集里有人名和对应的国家,我们需要训练一个模型,输入一个新的名字,模型能预测出是基于哪种语言的(18种不同的语言,18分类)Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第1张图片

 在自然语言处理中,通常先把词或字编程一个one-hot向量,one-hot向量维度高,而且过于稀疏,所以一般来说呀先通过嵌入层(Embed)把one-hot向量转化成低维的稠密向量,然后经过RNN,隐层的输出不一定和最终要求的目标一致,所以要用一个线性层把输出映射成和我们的要求一致,
Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第2张图片

 我们的需求是输出名字所属的语言分类,我们对01-05这些输出是没有要求的,即不需要对所有的隐层输出做线性变换,为了解决这个问题,我们可以把网络变得更简单,如下图Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第3张图片

输入向量经过嵌入层之后,输入到RNN,输出最终的隐层状态,最终的隐层状态经过一个线性层,我们分成18个类别,就可以实现名字分类的任务了
Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第4张图片

输入的每一个名字都是一个序列,序列的长短是不一样的 

Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第5张图片

输入是数据集里面的名字,经过模型之后我们得到相应的国家 Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第6张图片

主循环  

classifier = RNNClassifier(N_CHARS, HIDDEN_SIZE, N_COUNTRY, N_LAYER) 

 N_CHARS:字符数量(输入的是英文字母,每一个字符都要转变成独热向量)
HIDDEN_SIZE:隐层数量(GRU输出的隐层的维度)
N_COUNTRY:一共有多少个分类
N_LAYER:用来设置所使用的GRU层数

if __name__ == '__main__':
    classifier = RNNClassifier(N_CHARS, HIDDEN_SIZE, N_COUNTRY, N_LAYER)
    #把模型迁移到GPU
    if USE_GPU:
        device = torch.device('cuda:0')
        classifier.to(device)

    criterion = torch.nn.CrossEntropyLoss()     #计算损失
    optimizer = torch.optim.Adam(classifier.parameters(), lr = 0.001)   #更新

    start = time.time()
    print("Train for %d epochs..." % N_EPOCHS)

    acc_list= []
    for epoch in range(1, N_EPOCHS + 1):
        print('%d / %d:' % (epoch, N_EPOCHS))
        trainModel()
        acc = testModel()
        acc_list.append(acc)
  

在每一个epoch做一次训练和测试,把测试的结果添加到 acc_list列表(可以用来绘图,可以看到训练的损失是如何变化的)

准备数据

拿到的是字符串,先转变成序列,转成列表,列表里面的每一个数就是名字里面的每一个字符Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第7张图片 接下来做词典,可以用ASCII表,ASCII表是128个字符,我们把字典长度设置成128,求每一个字符对应的ASCII值,拼成我们想要的序列Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第8张图片

上图中的最右表中每一个数并不是一个数字,而是一个独热向量例如 77。就是一个128维的向量,第77个数的值为1,其他的值都是0.
对于Embed(嵌入层)来说,只要告诉嵌入层第几个维度是1就行了,所以只需要把ASCII值放在这就行了。

序列长短不一怎么解决? 

Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第9张图片

如上图左,每一行是一个序列,我们解决序列长短不一的方法是padding(因为张量必须保证所有的数据都贴满,不然就不是张量),如右图,就是在做一个batch的时候,我们看这一个batch里面哪一个字符串的长度最长,然后把其他字符串填充成和它一样的长度,就能保证可以构成一个张量,因为每个维度的数量不一样是没办法构成张量的

分类的处理

我们需要把各个分类(国家)转成一个分类索引,不能直接用字符串作为我们的分类标签Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第10张图片

 准备数据集代码:

. gzip和csv这两个包可以帮我们读取gz文件(gzip.open()打开gzip文件,然后用csv.reader()去读里面的数据)
有很多种不同的方式可以访问数据集,比如有些数据集不是.gz,而是.pickle,就可以用pickle包,还有HDFS,HD5得用HDFS的包读取,根据拿到的数据类型不一样,用相应的包把数据读出来。
我们读到的rows是一个元组,形式是(name,language)

# 准备数据集
class NameDataset(Dataset):
    def __init__(self, is_train_set=True):
        filename = 'data/names_train.csv.gz' if is_train_set else'data/names_test.csv.gz'
        with gzip.open(filename, 'rt') as f:
            reader = csv.reader(f)
            rows = list(reader) #一个元组

        # 取出名字
        self.names = [row[0] for row in rows] #先把名字都取出来
        self.len = len(self.names) #记录样本数量
        self.countries = [row[1] for row in rows]#把标签language取出来
        self.country_list = list(sorted(set(self.countries)))#set是先把列表变成集合,即去除重复的元素,
        #这样每一个语言就只剩下一个实例,然后用sorted排序 list变成列表

        self.country_dict = self.getCountryDict() #根据列表,把列表转变成词典
        self.country_num = len(self.country_list)

    def __getitem__(self, index):
        return self.names[index], self.countries_dict[self.countries[index]]
    ##__getitem__根据输入的名字找到对应国家的索引
    #返回两项,一项是输入样本
    #拿到输入样本之后,先把国家取出来,然后根据国家去查找对应的索引
    def getCountriesDict(self):
        countries_dict = dict()  #先做一个空字典
        for index, country_name in enumerate(self.countries_list, 0):
            countries_dict[country_name] = index  #构建键值对
        return countries_dict

    def __len__(self): #返回数据集长度
        return self.len

    def id2country(self, index): #根据索引返回国家字符串 例:1  Chinese
        return self.countries_list[index]

    def getCountriesNum(self):   #返回国家总数量
        return self.countries_num

trainset = NameDataset(is_train_set=True) 
trainloader = DataLoader(trainset, batch_size=BATCH_SIZE, shuffle=True) 
testset = NameDataset(is_train_set=False) 
testloader = DataLoader(testset, batch_size=BATCH_SIZE, shuffle=False)
N_COUNTRY = trainset.getCountriesNum() #总的类别数量,决定模型最终的输出大小

N_LAYER = 2   #GRU用了两层      N_EPOCH = 100   #将来训练100轮

N_CHARS = 128  #128的字典长度   USE_GPU = False  #不用GPU

Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第11张图片

 模型设计

#模型设计
import torch
from torch.nn.utils.rnn import pack_padded_sequence


class RNNClassifier(torch.nn.Module):
    # input_size=128, hidden_size=100, output_size=18
    def __init__(self, input_size, hidden_size, output_size, n_layers=1, bidirectional=True):
        super(RNNClassifier, self).__init__()
        self.hidden_size = hidden_size
        self.n_layers = n_layers  # GRU 使用层数
        self.n_directions = 2 if bidirectional else 1  # 是否双向循环神经网络
        self.embedding = torch.nn.Embedding(input_size, hidden_size)  # 输入大小128,输出大小100。
        # 经过Embedding后input的大小是100,hidden_size的大小也是100,所以形参都是hidden_size。
        self.gru = torch.nn.GRU(hidden_size, hidden_size, n_layers, bidirectional=bidirectional)
        # 如果是双向,会输出两个hidden层,要进行拼接,所以线性成的input大小是 hidden_size * self.n_directions,输出是大小是18,是为18个国家的概率。
        self.fc = torch.nn.Linear(hidden_size * self.n_directions, output_size)

    def _init_hidden(self, batch_size):
        #初始的全0隐层h0
        hidden = torch.zeros(self.n_layers * self.n_directions, batch_size, self.hidden_size)
        return hidden

    def forward(self, input, seq_lengths):
        # 先对input进行转置,input shape : batch_size*max_seq_lengths -> max_seq_lengths*batch_size 每一列表示姓名
        input = input.t()
        batch_size = input.size(1)  # 总共有多少列,既是batch_size的大小
        hidden = self._init_hidden(batch_size)  # 初始化隐藏层
        embedding = self.embedding(input)  # embedding.shape : max_seq_lengths*batch_size*hidden_size 12*64*100
        # pack_padded_sequence方便批量计算
        gru_input = pack_padded_sequence(embedding, seq_lengths)
        # 进入网络进行计算
        output, hidden = self.gru(gru_input, hidden)

        # 如果是双向的,需要进行拼接
        if self.n_directions == 2:
            hidden_cat = torch.cat([hidden[-1], hidden[-2]], dim=1)

        else:
            hidden_cat = hidden[-1]

        # 线性层输出大小为18
        fc_output = self.fc(hidden_cat)
        return fc_output

双向循环神经网络

lstm gru rnn 都有双向的
下图是单向的RNN,其中 RNN Cell共享权重和偏置,所以w和b是一样的,Xn-1的输出只包含它之前的序列的信息,即只考虑过去的信息,实际上在自然语言处理(NLP)我们还需要考虑来自未来的信息Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第12张图片

Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第13张图片

正向算完之后,再反向算一下,然后把算出来的隐层输出做拼接,如下图 hN是h(0,b)和h(N,f)拼接起来的,h(N-1)是把h(1,b)和h(N-1,f)拼接起来,这样的循环神经网络叫双向循环神经网络Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第14张图片 

最终,反向得到一个h(N,b)Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第15张图片 

每一次调用GRU会输出out和hidden两个项,其中hidden包含的项如下Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第16张图片 

 双向循环神经网络的forward过程

def forward(self, input, seq_lengths):
 # input shape : B x S - > S x B(S:sequential(序列),B:batch)
  input = input.t()                    %矩阵转置input shape : B x S - > S x B
  batch_size = input.size(1)           %保存batch_size用来构建最初始的隐层
  hidden = self._init_hidden(batch_size) %创建隐层
  embedding = self.embedding(input)      %把input扔到嵌入层里面,做嵌入
  %嵌入之后,输入的维度就变成了(,ℎ,ℎ)
  # pack them up 
  gru_input = pack_padded_sequence(embedding, seq_lengths)
  output, hidden = self.gru(gru_input, hidden)  %第二个hidden是初始的隐层,
  %我们想要得到的是第一个hidden的值
  if self.n_directions == 2: 
      hidden_cat = torch.cat([hidden[-1], hidden[-2]], dim=1)
      %如果是双向的循环神经网络,会有两个hidden,需要把他们拼接起来
  else: 
      hidden_cat = hidden[-1]  %如果是单向的循环神经网络,就只有1个hidden
  fc_output = self.fc(hidden_cat)             %把最后的隐层输出经过全连接层变换成我们想要的维 
  度做分类
  return fc_output
 input = input.t()%矩阵转置input shape : B x S - > S x B
 %功能如下图

Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第17张图片

embedding = self.embedding(input)      %把input扔到嵌入层里面,做嵌入
%嵌入之后,输入的维度就变成了(,ℎ,ℎ)

 Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第18张图片

为了提高运行效率,GRU支持一种提速,尤其是面对序列长短不一的时候,在pyTorch中, pack_padded_sequence的功能如下Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第19张图片 

先根据长度排序Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第20张图片 

排好序之后,再经过嵌入层Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第21张图片 

使用pack_padded_sequence做成下面这样的数据,GRU的运算效率更高哦(即把没有计算意义的padding 0去掉)Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第22张图片 

所以pack_padded_sequenceh函数需要输入数据的长度 seq_lengths

gru_input = pack_padded_sequence(embedding, seq_lengths)

 GRU根据上图的batch_sizes就决定每一时刻取多少行,GRU的工作效率就提高了Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第23张图片

由名字转换成Tensor的过程 

 Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第24张图片

过程如下:
1:字符串—>字符—>相应的ASCII值
Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第25张图片 然后做padding填充Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第26张图片

填充之后转置Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第27张图片 转置之后排序Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第28张图片

转换名字为tensor 

def name2list(name):
    """返回ASCII码表示的姓名列表与列表长度"""
    arr = [ord(c) for c in name]
    return arr, len(arr)


def make_tensors(names, countries):
    # 元组列表,每个元组包含ASCII码表示的姓名列表与列表长度
    sequences_and_lengths = [name2list(name) for name in names]
    # 取出所有的ASCII码表示的姓名列表
    name_sequences = [sl[0] for sl in sequences_and_lengths]
    # 取出所有的列表长度
    seq_lengths = torch.LongTensor([sl[1] for sl in sequences_and_lengths])
    # 将countries转为long型
    countries = countries.long()

    # 接下来每个名字序列补零,使之长度一样。
    # 先初始化一个全为零的tensor,大小为 所有姓名的数量*最长姓名的长度
    seq_tensor = torch.zeros(len(name_sequences), seq_lengths.max()).long()

    # 将姓名序列覆盖到初始化的全零tensor上
    for idx, (seq, seq_len) in enumerate(zip(name_sequences, seq_lengths), 0):
        seq_tensor[idx, :seq_len] = torch.LongTensor(seq)
    # 根据序列长度seq_lengths对补零后tensor进行降序怕排列,方便后面加速计算。
    # 返回排序后的seq_lengths与索引变化列表
    seq_lengths, perm_idx = seq_lengths.sort(dim=0, descending=True)
    # 根据索引变化列表对ASCII码表示的姓名列表进行排序
    seq_tensor = seq_tensor[perm_idx]
    # 根据索引变化列表对countries进行排序,使姓名与国家还是一一对应关系
    # seq_tensor.shape : batch_size*max_seq_lengths,
    # seq_lengths.shape : batch_size
    # countries.shape : batch_size
    countries = countries[perm_idx]
    return seq_tensor, seq_lengths, countries
def name2list(name): 
  arr = [ord(c) for c in name] 
  return arr, len(arr)
  %name2list返回两个,一个是元组,代表列表本身,一个是列表的长度
name_sequences = [sl[0] for sl in sequences_and_lengths] 
 %单独拿出列表

Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第29张图片

训练过程

# 训练
def time_since(since):
    s = time.time() - since
    m = math.floor(s/60)
    s -= m*60
    return '%dm %ds' % (m, s)

def trainModel():
    total_loss = 0
    for i, (names, countries) in enumerate(trainloader, 1):
        # make_tensors函数返回经过降序排列后的 姓名列表,列表长度,国家
        inputs, seq_lengths, target = make_tensors(names, countries)
        output = model(inputs, seq_lengths)
        optimizer.zero_grad()
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
        if i % 10 == 0:
            print(i)
            print(f'[{time_since(start)}] Epoch {epoch} ', end='')
            print(f'[{i * len(inputs)}/{len(trainset)}] ', end='')
            print(f'loss={total_loss / (i * len(inputs))}')
    return total_loss

def testModel():
    correct = 0
    total = len(testset)
    print("evaluating trained model ...")
    with torch.no_grad():
        for idx, (names, countries) in enumerate(testloader, 1):
            inputs, seq_lengths, target = make_tensors(names, countries)
            output = model(inputs, seq_lengths)
            pred = output.max(dim=1, keepdim=True)[1]
            correct += pred.eq(target.view_as(pred)).sum().item()
        percent = '%.2f' % (100 * correct / total)
        print(f'Test set: Accuracy {correct}/{total} {percent}%')
    return correct / total

完整代码:

'''
根据名字识别他所在的国家
人名字符长短不一,最长的10个字符,所以处理成10维输入张量,都是英文字母刚好可以映射到ASCII上
Maclean ->  ['M', 'a', 'c', 'l', 'e', 'a', 'n'] ->  [ 77 97 99 108 101 97 110]  ->  [ 77 97 99 108 101 97 110 0 0 0]
共有18个国家,设置索引为0-17
训练集和测试集的表格文件都是第一列人名,第二列国家
'''
import torch
import  time
import csv
import gzip
from  torch.utils.data import DataLoader
import datetime
import matplotlib.pyplot as plt
import numpy as np

# Parameters
HIDDEN_SIZE = 100
BATCH_SIZE = 256
N_LAYER = 2
N_EPOCHS = 100
N_CHARS = 128
USE_GPU = True

class NameDataset():         #处理数据集
    def __init__(self, is_train_set=True):
        filename = 'data/names_train.csv.gz' if is_train_set else 'data/names_test.csv.gz'
        with gzip.open(filename, 'rt') as f:    #打开压缩文件并将变量名设为为f
            reader = csv.reader(f)              #读取表格文件
            rows = list(reader)
        self.names = [row[0] for row in rows]   #取出人名
        self.len = len(self.names)              #人名数量
        self.countries = [row[1] for row in rows]#取出国家名
        self.country_list = list(sorted(set(self.countries)))#国家名集合,18个国家名的集合
        #countrys是所有国家名,set(countrys)把所有国家明元素设为集合(去除重复项),sorted()函数是将集合排序
        #测试了一下,实际list(sorted(set(self.countrys)))==sorted(set(self.countrys))
        self.country_dict = self.getCountryDict()#转变成词典
        self.country_num = len(self.country_list)#得到国家集合的长度18

    def __getitem__(self, index):
        return self.names[index], self.country_dict[self.countries[index]]

    def __len__(self):
        return self.len

    def getCountryDict(self):
        country_dict = dict()                                       #创建空字典
        for idx, country_name in enumerate(self.country_list,0):    #取出序号和对应国家名
            country_dict[country_name] = idx                        #把对应的国家名和序号存入字典
        return country_dict

    def idx2country(self,index):            #返回索引对应国家名
        return self.country_list(index)

    def getCountrysNum(self):               #返回国家数量
        return self.country_num

trainset = NameDataset(is_train_set=True)
trainloader = DataLoader(trainset, batch_size=BATCH_SIZE,shuffle=True)
testset = NameDataset(is_train_set=False)
testloader = DataLoader(testset, batch_size=BATCH_SIZE,shuffle=False)

N_COUNTRY = trainset.getCountrysNum()       #模型输出大小

def create_tensor(tensor):#判断是否使用GPU 使用的话把tensor搬到GPU上去
    if USE_GPU:
        device = torch.device("cuda:0")
        tensor = tensor.to(device)
    return tensor

class RNNClassifier(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size, n_layers=1, bidirectional=True):
        super(RNNClassifier, self).__init__()
        self.hidden_size = hidden_size                  #包括下面的n_layers在GRU模型里使用
        self.n_layers = n_layers
        self.n_directions = 2 if bidirectional else 1

        self.embedding = torch.nn.Embedding(input_size, hidden_size)#input.shape=(seqlen,batch) output.shape=(seqlen,batch,hiddensize)
        self.gru = torch.nn.GRU(hidden_size, hidden_size, n_layers, bidirectional=bidirectional)
                                #输入维度       输出维度      层数        说明单向还是双向
        self.fc = torch.nn.Linear(hidden_size * self.n_directions, output_size)#双向GRU会输出两个hidden,维度需要✖2,要接一个线性层

    def forward(self, input, seq_lengths):
        input = input.t()               #input shaoe :  Batch x Seq -> S x B 用于embedding
        batch_size = input.size(1)
        hidden =self._init_hidden(batch_size)
        embedding = self.embedding(input)

        # pack_padded_sequence函数当出入seq_lengths是GPU张量时报错,在这里改成cpu张量就可以,不用GPU直接注释掉下面这一行代码
        seq_lengths = seq_lengths.cpu()#改成cpu张量
        # pack them up
        gru_input = torch.nn.utils.rnn.pack_padded_sequence(embedding, seq_lengths)#让0值不参与运算加快运算速度的方式
        #需要提前把输入按有效值长度降序排列 再对输入做嵌入,然后按每个输入len(seq——lengths)取值做为GRU输入

        output, hidden = self.gru(gru_input, hidden)#双向传播的话hidden有两个
        if self.n_directions ==2:
            hidden_cat = torch.cat([hidden[-1], hidden[-2]], dim=1)
        else:
            hidden_cat = hidden[-1]
        fc_output = self.fc(hidden_cat)
        return fc_output

    def _init_hidden(self,batch_size):
        hidden = torch.zeros(self.n_layers * self.n_directions, batch_size, self.hidden_size)
        return  create_tensor(hidden)

#classifier = RNNClassifier(N_CHARS, HIDDEN_SIZE, N_COUNTRY, N_LAYER)

#对名字的处理需要先把每个名字按字符都变成ASCII码
def name2list(name):#把每个名字按字符都变成ASCII码
    arr = [ord(c) for c in name]
    return arr, len(arr)

def make_tensors(names, countries):     #处理名字ASCII码 重新排序的长度和国家列表
    sequences_and_lengths= [name2list(name) for name in names]                  #把每个名字按字符都变成ASCII码
    name_sequences = [sl[0] for sl in sequences_and_lengths]                    #取出名字列表对应的ACSII码
    seq_lengths = torch.LongTensor([sl[1] for sl in sequences_and_lengths])     #取出每个名字对应的长度列表
    countries = countries.long()

    # make tensor of name, BatchSize x SeqLen
    seq_tensor = torch.zeros(len(name_sequences), seq_lengths.max()).long()     #先做一个 名字数量x最长名字长度的全0tensor
    for idx, (seq, seq_len) in enumerate(zip(name_sequences, seq_lengths), 0):  #取出序列,ACSII码和长度列表
        seq_tensor[idx, :seq_len] = torch.LongTensor(seq)                       #用名字列表的ACSII码填充上面的全0tensor

    # sort by length to use pack_padded_sequence
    seq_lengths, perm_idx = seq_lengths.sort(dim=0, descending=True)#将seq_lengths按序列长度重新降序排序,返回排序结果和排序序列。
    seq_tensor = seq_tensor[perm_idx]                               #按新序列把ASCII表重新排序
    countries = countries[perm_idx]                                 #按新序列把国家列表重新排序

                #返回排序后的 ASCII列表         名字长度降序列表        国家名列表
    return create_tensor(seq_tensor),create_tensor(seq_lengths),create_tensor(countries)

def trainModel():
    total_loss = 0

    for i, (names, countries) in enumerate(trainloader, 1):
        optimizer.zero_grad()
        inputs, seq_lengths, target = make_tensors(names, countries)#取出排序后的 ASCII列表 名字长度列表 国家名列表
        output = classifier(inputs, seq_lengths)    #把输入和序列放入分类器
        loss = criterion(output, target)            #计算损失

        loss.backward()
        optimizer.step()
        total_loss += loss.item()

        #打印输出结果
        #if i % 100 == 0:
        #    print(f'Epoch {epoch} ')
        if i == len(trainset) // BATCH_SIZE :
            #print(f'[13374/{len(trainset)}] ', end='')
            print(f'loss={total_loss / (i * len(inputs))}')
        '''elif i % 10 == 9 :
            print(f'[{i * len(inputs)}/{len(trainset)}] ', end='')
            print(f'loss={total_loss / (i * len(inputs))}')'''
    return total_loss

def testModel():
    correct = 0
    total = len(testset)

    with torch.no_grad():
        for i, (names, countries) in enumerate(testloader, 1):
            inputs, seq_lengths, target = make_tensors(names, countries)    #返回处理后的名字ASCII码 重新排序的长度和国家列表
            output = classifier(inputs, seq_lengths)                        #输出
            pred = output.max(dim=1, keepdim=True)[1]                       #预测
            correct += pred.eq(target.view_as(pred)).sum().item()           #计算预测对了多少

        percent = '%.2f' % (100 * correct / total)
        print(f'Test set: Accuracy {correct}/{total} {percent}%')
    return correct / total

if __name__ == '__main__':
    print("Train for %d epochs..." % N_EPOCHS)
    start = time.time()
    classifier = RNNClassifier(N_CHARS, HIDDEN_SIZE, N_COUNTRY, N_LAYER)
    if USE_GPU:
        device = torch.device('cuda:0')
        classifier.to(device)

    criterion = torch.nn.CrossEntropyLoss()     #计算损失
    optimizer = torch.optim.Adam(classifier.parameters(), lr = 0.001)   #更新

    acc_list= []
    for epoch in range(1, N_EPOCHS+1):
        #训练
        print('%d / %d:' % (epoch, N_EPOCHS))
        trainModel()
        acc = testModel()
        acc_list.append(acc)
    end = time.time()
    print(datetime.timedelta(seconds=(end - start) // 1))


    epoch = np.arange(1, len(acc_list) + 1, 1)
    acc_list = np.array(acc_list)
    plt.plot(epoch, acc_list)
    plt.xlabel('Epoch')
    plt.ylabel('Accuracy')
    plt.grid()
    plt.show()

运行:

Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第30张图片Pytorch深度学习实践(b站刘二大人)P13讲 (RNN循环神经网络高级篇)_第31张图片

 

 

参考链接

你可能感兴趣的:(pytorch,深度学习,rnn)