Nlper_Zhao

卷积序列到序列模型的学习（Convolutional Sequence to Sequence Learning）

文章目录

- Introduction
- 数据预处理
- 搭建模型
- - Encoder
  - Convolutional Blocks
  - Encoder的实现
  - Decoder
  - Decoder Convolutional Blocks
  - Decoder的实现
  - Seq2Seq
- 训练模型
- 推断
- BELU
- 完整代码

在本笔记本中，我们将实现论文Convolutional Sequence to Sequence Learning模型。

Introduction

这个模型与之前笔记中使用的先前模型有很大的不同。根本没有使用任何循环的组件。相反，它使用通常用于图像处理的卷积层。

简而言之，卷积层使用了过滤器。这些过滤器有一个宽度(在图像中也有一个高度，但通常不是文本)。如果一个过滤器的宽度为3，那么它可以看到3个连续的标记。每个卷积层都有许多这样的过滤器(本教程中是1024个)。每个过滤器将从开始到结束滑过序列，一次查看所有3个连续的标记。其思想是，这1024个过滤器中的每一个都将学习从文本中提取不同的特征。这个特征提取的结果将被模型使用——可能作为另一个卷积层的输入。然后，这些都可以用来从源句子中提取特征，将其翻译成目标语言。

数据预处理

首先，让我们导入所有必需的模块，并为可重复性设置随机种子。

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

from torchtext.datasets import Multi30k
from torchtext.data import Field, BucketIterator

import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

import spacy
import numpy as np

import random
import math
import time

SEED = 1234

random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

接下来，我们将加载spaCy模块，并为源语言和目标语言定义标记器。

spacy_de = spacy.load('de_core_news_sm')
spacy_en = spacy.load('en_core_web_sm')

def tokenize_de(text):
    """
    Tokenizes German text from a string into a list of strings
    """
    return [tok.text for tok in spacy_de.tokenizer(text)]

def tokenize_en(text):
    """
    Tokenizes English text from a string into a list of strings
    """
    return [tok.text for tok in spacy_en.tokenizer(text)]

接下来，我们将设置决定如何处理数据的字段。默认情况下，PyTorch中的RNN模型要求序列是一个[src_len，批batch_size]形状的张量，因此TorchText将默认返回一批相同形状的张量。然而，在本笔记中，我们使用的CNN期望batch_size是第一个。通过设置batch_first = True，我们告诉TorchText将batch设置为[batch_size，src_len]。

我们还附加了序列标记的开始和结束，并对所有文本进行小写。

SRC = Field(tokenize = tokenize_de, 
            init_token = '', 
            eos_token = '', 
            lower = True, 
            batch_first = True)

TRG = Field(tokenize = tokenize_en, 
            init_token = '', 
            eos_token = '', 
            lower = True, 
            batch_first = True)

然后，我们加载数据集。

train_data, valid_data, test_data = Multi30k.splits(exts=('.de', '.en'), 
                                                    fields=(SRC, TRG))

我们像以前一样构建词汇表，将出现次数少于2次的任何标记转换为《unk》标记。

SRC.build_vocab(train_data, min_freq = 2)
TRG.build_vocab(train_data, min_freq = 2)

最后一点数据准备是定义device，然后构建迭代器。

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

BATCH_SIZE = 128

train_iterator, valid_iterator, test_iterator = BucketIterator.splits(
    (train_data, valid_data, test_data), 
     batch_size = BATCH_SIZE,
     device = device)

搭建模型

接下来是构建模型。与之前一样，该模型由编码器和解码器组成。编码器用源语言将输入句子编码成上下文向量。解码器对上下文向量进行解码，以生成目标语言的输出句子。

Encoder

这些教程中以前的模型有一个编码器，它可以将整个输入句子压缩到单个上下文向量 $z$ 中。卷积序列到序列模型有一点不同——它为输入句子中的每个标记获得两个上下文向量。因此，如果我们的输入句子有6个标记，我们将得到12个上下文向量，每个标记两个有两个上下文向量。

每个标记的两个上下文向量是一个卷积向量（conved vector）和一个组合向量（combined vector）。conved向量是每个标记通过几个层传递的结果——我们稍后将对此进行解释。combined向量来自于卷积向量和该标记的embedding的和。这两个都由编码器返回，由解码器使用。

下图显示了输入句子zwei menschen fechten的结果。-通过编码器传递。

首先，token通过标记嵌入层传递——这是自然语言处理中的神经网络的标准。然而，由于该模型中没有循环的连接，因此不知道序列中标记的顺序。为了纠正这一点，我们有第二个嵌入层，位置嵌入层。这是一个标准的嵌入层，其中的输入不是标记本身，而是标记在序列中的位置——从第一个标记《sos》(序列开始)标记开始，位置为0。

接下来，将标记和位置嵌入元素相加得到一个向量，该向量包含关于标记及其在序列中的位置的信息——我们简单地称之为嵌入向量。随后是一个线性层，它将嵌入向量转换成具有所需隐藏维度大小的向量。

下一步是将这个隐藏向量传递到 $N$ 卷积块中。这就是这个模型中发生“魔法”的地方，我们稍后将详细介绍卷积块的内容。经过卷积块后，向量传入另一个线性层，将其从隐藏维数大小转换回嵌入维数大小。这是我们的卷积向量（conved vector）------在输入序列中每个标记卷积后都会有一个。

最后，通过残差连接将卷积向量（conved vector）与嵌入向量（embedding vector）进行元素相加，得到每个标记的组合向量（combined vector）。同样，输入序列中的每个标记都有一个组合向量（combined vector）。

Convolutional Blocks

那么，这些卷积块是如何工作的呢?下图显示了两个卷积块，其中一个过滤器(蓝色)在序列中的标记上滑动。在实际的实现中，我们将有10个卷积块，每个块中有1024个过滤器。

首先，填充输入句子。这是因为卷积层将减少输入句子的长度，我们希望进入卷积块的句子的长度等于从卷积块中出来的句子的长度。如果没有填充，从卷积层出来的序列的长度将比进入卷积层的序列短filter_size - 1。例如，如果我们的过滤器大小为3，那么序列将短2个元素。因此，我们在句子的每一侧都填充一个padding元素。对于奇数大小的过滤器，我们可以通过简单的操作(filter_size - 1)/2来计算两边的填充量，在本教程中我们将不涉及偶数大小的过滤器。

这些过滤器的设计使其输出隐藏维数是输入隐藏维数的两倍。在计算机视觉术语中，这些隐藏的维度被称为通道——但我们将坚持称它们为隐藏的维度。为什么我们要把隐藏维度的大小增加一倍来离开卷积滤波器?这是因为我们使用了一种特殊的激活函数，叫做门控线性单元(GLU)。GLUs有门控机制(类似于LSTMs和GRUs)，包含在激活函数中，实际上是隐藏维度大小的一半——而激活函数通常保持隐藏维度的大小相同。

经过GLU激活后，每个标记的隐藏维度大小与进入卷积块时相同。在经过卷积层之前，它现在与自己的向量进行元素级求和。

这就得到了一个单独的卷积块。后续块获取前一个块的输出并执行相同的步骤。每个块都有自己的参数，它们不会在块之间共享。最后一个块的输出返回到主编码器——在那里它通过线性层被馈入以得到卷积（conved）输出，然后与标记的嵌入（embedding）元素累加以得到组合（combined）输出。

Encoder的实现

为了使实现简单，我们只允许奇数大小的卷积核。这允许将填充相等地添加到源序列的两边。

研究人员使用这个尺度（scale）变量来“确保整个网络的方差不会发生显著变化”。如果不使用不同的种子，模型的性能似乎会有很大的不同。

位置嵌入被初始化为100的“词汇表”。这意味着它可以处理长度为100个元素的序列，索引范围从0到99。如果在具有更长的序列的数据集上使用，这个值可以增加。

class Encoder(nn.Module):
    def __init__(self, 
                 input_dim, 
                 emb_dim, 
                 hid_dim, 
                 n_layers, 
                 kernel_size, 
                 dropout, 
                 device,
                 max_length = 100):
        super().__init__()
        
        assert kernel_size % 2 == 1, "Kernel size must be odd!"
        
        self.device = device
        
        self.scale = torch.sqrt(torch.FloatTensor([0.5])).to(device)
        
        self.tok_embedding = nn.Embedding(input_dim, emb_dim)
        self.pos_embedding = nn.Embedding(max_length, emb_dim)
        
        self.emb2hid = nn.Linear(emb_dim, hid_dim)
        self.hid2emb = nn.Linear(hid_dim, emb_dim)
        
        self.convs = nn.ModuleList([nn.Conv1d(in_channels = hid_dim, 
                                              out_channels = 2 * hid_dim, 
                                              kernel_size = kernel_size, 
                                              padding = (kernel_size - 1) // 2)
                                    for _ in range(n_layers)])
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src):
        
        #src = [batch size, src len]
        
        batch_size = src.shape[0]
        src_len = src.shape[1]
        
        #create position tensor
        pos = torch.arange(0, src_len).unsqueeze(0).repeat(batch_size, 1).to(self.device)
        
        #pos = [0, 1, 2, 3, ..., src len - 1]
        
        #pos = [batch size, src len]
        
        #embed tokens and positions
        tok_embedded = self.tok_embedding(src)
        pos_embedded = self.pos_embedding(pos)
        
        #tok_embedded = pos_embedded = [batch size, src len, emb dim]
        
        #combine embeddings by elementwise summing
        embedded = self.dropout(tok_embedded + pos_embedded)
        
        #embedded = [batch size, src len, emb dim]
        
        #pass embedded through linear layer to convert from emb dim to hid dim
        conv_input = self.emb2hid(embedded)
        
        #conv_input = [batch size, src len, hid dim]
        
        #permute for convolutional layer
        conv_input = conv_input.permute(0, 2, 1) 
        
        #conv_input = [batch size, hid dim, src len]
        
        #begin convolutional blocks...
        
        for i, conv in enumerate(self.convs):
        
            #pass through convolutional layer
            conved = conv(self.dropout(conv_input))

            #conved = [batch size, 2 * hid dim, src len]

            #pass through GLU activation function
            conved = F.glu(conved, dim = 1)

            #conved = [batch size, hid dim, src len]
            
            #apply residual connection
            conved = (conved + conv_input) * self.scale

            #conved = [batch size, hid dim, src len]
            
            #set conv_input to conved for next loop iteration
            conv_input = conved
        
        #...end convolutional blocks
        
        #permute and convert back to emb dim
        conved = self.hid2emb(conved.permute(0, 2, 1))
        
        #conved = [batch size, src len, emb dim]
        
        #elementwise sum output (conved) and input (embedded) to be used for attention
        combined = (conved + embedded) * self.scale
        
        #combined = [batch size, src len, emb dim]
        
        return conved, combined

Decoder

解码器接收实际的目标句子并试图预测它。这个模型不同于前面在这些教程中详细介绍的循环神经网络模型，因为它可以并行地预测目标句子中的所有标记。没有顺序处理，也就是说没有解码循环。这将在后面的教程中进一步详细说明。

解码器与编码器类似，只是对主要模型和模型内的卷积块做了一些修改。

首先，在卷积块和变换之后，嵌入没有进行残差连接。相反，嵌入被送入卷积块中，在那里进行剩差连接使用。

其次，为了往编码器输入解码器信息，在卷积块内使用编码器的卷积输出（conved）和组合（combined）输出。

最后，解码器的输出是一个从嵌入维度变换到输出维度的线性层。这是用来预测翻译中的下一个单词应该是什么。

Decoder Convolutional Blocks

同样，这些与编码器中的卷积块相似，只是做了一些修改。

首先,进行的是填充。为了确保句子的长度始终一致，我们只在句子的开头填充，而不是在每一侧均匀填充。由于我们并行而不是顺序地同时处理所有目标标记，所以我们需要一种方法，只允许过滤器将token $i$ 转换为只查看单词 $i$ 之前的token。如果允许它们查看token $i + 1$ (它们应该输出的token)，模型将通过直接复制它来学习输出序列中的下一个单词，而不需要实际学习如何翻译。

让我们看看如果我们不正确地在每一边等量填充会发生什么，就像我们在编码器中做的那样。

第一个位置的过滤器尝试使用序列中的第一个单词《sos》来预测第二个单词two，现在可以直接看到单词two。这对于每个位置都是一样的，模型试图预测的单词是过滤器覆盖的第二个元素。因此，过滤器可以学习简单地复制每个位置上的第二个单词，从而实现完美的翻译，而不必真正学习如何翻译。

第二，在GLU激活后，在残差连接之前，该区块计算并应用注意力-使用编码表示和嵌入当前单词。注意:我们只显示到最右边标记的连接，但它们实际上连接到所有标记——这样做是为了清楚。每个标记输入都使用自己的，且仅使用自己的，嵌入自己的注意力计算。

注意力计算首先使用一个线性层改变Decoder传入的conved的隐藏维数为相同的嵌入维数。然后，再与嵌入（embedded）通过一个残差连接求和。然后，通过发现它与编码的卷积（conved）有多少“匹配”，然后再通过对编码的组合（combined）进行加权和，这样应用标准注意力计算。然后将其投影回隐藏的维度大小，并应用与注意力层初始输入（conved）的残差连接。

为什么他们首先用编码的卷积（conved）来计算注意力然后用它来通过编码的组合（combined）计算加权和?论文认为，编码后的卷积（conved）有助于在编码序列上获得更大的上下文，而编码后的组合（combined）具有更多关于特定标记的信息，因此更有助于进行预测。

Decoder的实现

由于我们只在一边填充，解码器允许使用奇数和偶数大小的填充。再一次，scale被用来减小整个模型的方差，位置嵌入被初始化为100的“词汇表”。

该模型在其forward方法中接受编码器的表示（encoder_conved和encoder_combined），并将两者传递给calculate_attention方法，该方法计算和应用注意力。它还返回实际的注意力值，但我们目前没有使用它们。

class Decoder(nn.Module):
    def __init__(self, 
                 output_dim, 
                 emb_dim, 
                 hid_dim, 
                 n_layers, 
                 kernel_size, 
                 dropout, 
                 trg_pad_idx, 
                 device,
                 max_length = 100):
        super().__init__()
        
        self.kernel_size = kernel_size
        self.trg_pad_idx = trg_pad_idx
        self.device = device
        
        self.scale = torch.sqrt(torch.FloatTensor([0.5])).to(device)
        
        self.tok_embedding = nn.Embedding(output_dim, emb_dim)
        self.pos_embedding = nn.Embedding(max_length, emb_dim)
        
        self.emb2hid = nn.Linear(emb_dim, hid_dim)
        self.hid2emb = nn.Linear(hid_dim, emb_dim)
        
        self.attn_hid2emb = nn.Linear(hid_dim, emb_dim)
        self.attn_emb2hid = nn.Linear(emb_dim, hid_dim)
        
        self.fc_out = nn.Linear(emb_dim, output_dim)
        
        self.convs = nn.ModuleList([nn.Conv1d(in_channels = hid_dim, 
                                              out_channels = 2 * hid_dim, 
                                              kernel_size = kernel_size)
                                    for _ in range(n_layers)])
        
        self.dropout = nn.Dropout(dropout)
      
    def calculate_attention(self, embedded, conved, encoder_conved, encoder_combined):
        
        #embedded = [batch size, trg len, emb dim]
        #conved = [batch size, hid dim, trg len]
        #encoder_conved = encoder_combined = [batch size, src len, emb dim]
        
        #permute and convert back to emb dim
        conved_emb = self.attn_hid2emb(conved.permute(0, 2, 1))
        
        #conved_emb = [batch size, trg len, emb dim]
        
        combined = (conved_emb + embedded) * self.scale
        
        #combined = [batch size, trg len, emb dim]
                
        energy = torch.matmul(combined, encoder_conved.permute(0, 2, 1))
        
        #energy = [batch size, trg len, src len]
        
        attention = F.softmax(energy, dim=2)
        
        #attention = [batch size, trg len, src len]
            
        attended_encoding = torch.matmul(attention, encoder_combined)
        
        #attended_encoding = [batch size, trg len, emd dim]
        
        #convert from emb dim -> hid dim
        attended_encoding = self.attn_emb2hid(attended_encoding)
        
        #attended_encoding = [batch size, trg len, hid dim]
        
        #apply residual connection
        attended_combined = (conved + attended_encoding.permute(0, 2, 1)) * self.scale
        
        #attended_combined = [batch size, hid dim, trg len]
        
        return attention, attended_combined
        
    def forward(self, trg, encoder_conved, encoder_combined):
        
        #trg = [batch size, trg len]
        #encoder_conved = encoder_combined = [batch size, src len, emb dim]
                
        batch_size = trg.shape[0]
        trg_len = trg.shape[1]
            
        #create position tensor
        pos = torch.arange(0, trg_len).unsqueeze(0).repeat(batch_size, 1).to(self.device)
        
        #pos = [batch size, trg len]
        
        #embed tokens and positions
        tok_embedded = self.tok_embedding(trg)
        pos_embedded = self.pos_embedding(pos)
        
        #tok_embedded = [batch size, trg len, emb dim]
        #pos_embedded = [batch size, trg len, emb dim]
        
        #combine embeddings by elementwise summing
        embedded = self.dropout(tok_embedded + pos_embedded)
        
        #embedded = [batch size, trg len, emb dim]
        
        #pass embedded through linear layer to go through emb dim -> hid dim
        conv_input = self.emb2hid(embedded)
        
        #conv_input = [batch size, trg len, hid dim]
        
        #permute for convolutional layer
        conv_input = conv_input.permute(0, 2, 1) 
        
        #conv_input = [batch size, hid dim, trg len]
        
        batch_size = conv_input.shape[0]
        hid_dim = conv_input.shape[1]
        
        for i, conv in enumerate(self.convs):
        
            #apply dropout
            conv_input = self.dropout(conv_input)
        
            #need to pad so decoder can't "cheat"
            padding = torch.zeros(batch_size, 
                                  hid_dim, 
                                  self.kernel_size - 1).fill_(self.trg_pad_idx).to(self.device)
                
            padded_conv_input = torch.cat((padding, conv_input), dim = 2)
        
            #padded_conv_input = [batch size, hid dim, trg len + kernel size - 1]
        
            #pass through convolutional layer
            conved = conv(padded_conv_input)

            #conved = [batch size, 2 * hid dim, trg len]
            
            #pass through GLU activation function
            conved = F.glu(conved, dim = 1)

            #conved = [batch size, hid dim, trg len]
            
            #calculate attention
            attention, conved = self.calculate_attention(embedded, 
                                                         conved, 
                                                         encoder_conved, 
                                                         encoder_combined)
            
            #attention = [batch size, trg len, src len]
            
            #apply residual connection
            conved = (conved + conv_input) * self.scale
            
            #conved = [batch size, hid dim, trg len]
            
            #set conv_input to conved for next loop iteration
            conv_input = conved
            
        conved = self.hid2emb(conved.permute(0, 2, 1))
         
        #conved = [batch size, trg len, emb dim]
            
        output = self.fc_out(self.dropout(conved))
        
        #output = [batch size, trg len, output dim]
            
        return output, attention

Seq2Seq

封装的Seq2Seq模块与以前的笔记中使用的循环神经网络方法有很大的不同，特别是在解码方面。

我们的trg将《eos》元素从序列末尾切掉。这是因为我们没有在解码器中输入《eos》标记。

编码类似，插入源序列并接收“上下文向量”。但是，在源序列中，每个单词都有两个上下文向量，encoder_conved和encoder_combined。

由于解码是并行完成的，我们不需要一个解码循环。所有的目标序列都一次性输入到解码器中，并且填充用于确保解码器中的每个卷积过滤器在序列滑过句子时只能看到序列中的当前和之前的标记。

然而，这也意味着我们不能使用这个模型来做teacher forcing。我们没有一个循环，在这个循环中，我们可以选择是在序列中输入预测的标记还是实际的标记，因为所有事情都是并行预测的。

class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder):
        super().__init__()
        
        self.encoder = encoder
        self.decoder = decoder
        
    def forward(self, src, trg):
        
        #src = [batch size, src len]
        #trg = [batch size, trg len - 1] ( token sliced off the end)
           
        #calculate z^u (encoder_conved) and (z^u + e) (encoder_combined)
        #encoder_conved is output from final encoder conv. block
        #encoder_combined is encoder_conved plus (elementwise) src embedding plus 
        #  positional embeddings 
        encoder_conved, encoder_combined = self.encoder(src)
            
        #encoder_conved = [batch size, src len, emb dim]
        #encoder_combined = [batch size, src len, emb dim]
        
        #calculate predictions of next words
        #output is a batch of predictions for each word in the trg sentence
        #attention a batch of attention scores across the src sentence for 
        #  each word in the trg sentence
        output, attention = self.decoder(trg, encoder_conved, encoder_combined)
        
        #output = [batch size, trg len - 1, output dim]
        #attention = [batch size, trg len - 1, src len]
        
        return output, attention

训练模型

本教程的其余部分类似于前面的所有内容。我们定义所有的超参数，初始化编码器和解码器，并初始化整个模型——如果我们有GPU，就把它放到GPU上。

在这篇论文中，他们发现使用小的过滤器(核大小为3)和高的层数(5+)更有益。

INPUT_DIM = len(SRC.vocab)
OUTPUT_DIM = len(TRG.vocab)
EMB_DIM = 256
HID_DIM = 512 # each conv. layer has 2 * hid_dim filters
ENC_LAYERS = 10 # number of conv. blocks in encoder
DEC_LAYERS = 10 # number of conv. blocks in decoder
ENC_KERNEL_SIZE = 3 # must be odd!
DEC_KERNEL_SIZE = 3 # can be even or odd
ENC_DROPOUT = 0.25
DEC_DROPOUT = 0.25
TRG_PAD_IDX = TRG.vocab.stoi[TRG.pad_token]
    
enc = Encoder(INPUT_DIM, EMB_DIM, HID_DIM, ENC_LAYERS, ENC_KERNEL_SIZE, ENC_DROPOUT, device)
dec = Decoder(OUTPUT_DIM, EMB_DIM, HID_DIM, DEC_LAYERS, DEC_KERNEL_SIZE, DEC_DROPOUT, TRG_PAD_IDX, device)

model = Seq2Seq(enc, dec).to(device)

我们还可以看到，该模型的参数几乎是基于注意力的模型的两倍(20m到37m)。


def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f'The model has {count_parameters(model):,} trainable parameters')

The model has 37,351,685 trainable parameters

接下来，我们定义优化器和损失函数(criterion)。与前面一样，我们忽略目标序列是填充标记时的损失。

optimizer = optim.Adam(model.parameters())

criterion = nn.CrossEntropyLoss(ignore_index = TRG_PAD_IDX)

然后，我们为模型定义训练循环。

我们处理序列的方式与之前的教程略有不同。对于所有的模型，我们从不把《eos》放入解码器。这是处理在RNN模型有解码器循环不达到有《eos》作为输入解码器。在这个模型中，我们简单地将《eos》标记从序列末尾切掉。因此:

$x_i$ 表示实际目标序列元素。然后，我们将其输入到模型中，以获得一个有望预测《eos》标记的预期序列:

$y_i$ 表示预测的目标序列元素。然后，我们使用原始trg张量计算我们的损失，将《sos》标记切掉，留下《eos》标记:

然后我们计算我们的损失并按照标准更新我们的参数。

def train(model, iterator, optimizer, criterion, clip):
    
    model.train()
    
    epoch_loss = 0
    
    for i, batch in enumerate(iterator):
        
        src = batch.src
        trg = batch.trg
        
        optimizer.zero_grad()
        
        output, _ = model(src, trg[:,:-1])
        
        #output = [batch size, trg len - 1, output dim]
        #trg = [batch size, trg len]
        
        output_dim = output.shape[-1]
        
        output = output.contiguous().view(-1, output_dim)
        trg = trg[:,1:].contiguous().view(-1)
        
        #output = [batch size * trg len - 1, output dim]
        #trg = [batch size * trg len - 1]
        
        loss = criterion(output, trg)
        
        loss.backward()
        
        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
        
        optimizer.step()
        
        epoch_loss += loss.item()
        
    return epoch_loss / len(iterator)

评估循环与训练循环相同，只是没有梯度计算和参数更新。

def evaluate(model, iterator, criterion):
    
    model.eval()
    
    epoch_loss = 0
    
    with torch.no_grad():
    
        for i, batch in enumerate(iterator):

            src = batch.src
            trg = batch.trg

            output, _ = model(src, trg[:,:-1])
        
            #output = [batch size, trg len - 1, output dim]
            #trg = [batch size, trg len]

            output_dim = output.shape[-1]
            
            output = output.contiguous().view(-1, output_dim)
            trg = trg[:,1:].contiguous().view(-1)

            #output = [batch size * trg len - 1, output dim]
            #trg = [batch size * trg len - 1]
            
            loss = criterion(output, trg)

            epoch_loss += loss.item()
        
    return epoch_loss / len(iterator)

同样，我们有一个函数告诉我们每个epoch需要多长时间。

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

最后，我们训练我们的模型。注意，为了更可靠地训练这个模型，我们将 CLIP值从1减少到0.1。随着较高的 CLIP值，梯度偶尔爆炸。

尽管我们的参数几乎是基于注意力的RNN模型的两倍，但它实际上只需要标准版本的一半时间，并且与填充序列版本的时间差不多。这是由于所有的计算都是使用卷积过滤器并行完成的，而不是按顺序使用RNN。

注意:该模型的teacher forcing比率始终为1，即它将始终使用目标序列中的ground truth next token。这意味着，当使用不为1的teacher forcing比率时，我们不能将perplexity值与之前的模型进行比较。在teacher forcing比率为1时，基于注意力的RNN的结果见这里。


N_EPOCHS = 10
CLIP = 0.1

best_valid_loss = float('inf')

for epoch in range(N_EPOCHS):
    
    start_time = time.time()
    
    train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
    valid_loss = evaluate(model, valid_iterator, criterion)
    
    end_time = time.time()
    
    epoch_mins, epoch_secs = epoch_time(start_time, end_time)
    
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'tut5-model.pt')
    
    print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
    print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. PPL: {math.exp(valid_loss):7.3f}')


Epoch: 01 | Time: 0m 30s
	Train Loss: 4.240 | Train PPL:  69.408
	 Val. Loss: 2.994 |  Val. PPL:  19.961
Epoch: 02 | Time: 0m 30s
	Train Loss: 3.043 | Train PPL:  20.971
	 Val. Loss: 2.379 |  Val. PPL:  10.798
Epoch: 03 | Time: 0m 30s
	Train Loss: 2.604 | Train PPL:  13.521
	 Val. Loss: 2.124 |  Val. PPL:   8.361
Epoch: 04 | Time: 0m 30s
	Train Loss: 2.369 | Train PPL:  10.685
	 Val. Loss: 1.991 |  Val. PPL:   7.323
Epoch: 05 | Time: 0m 30s
	Train Loss: 2.209 | Train PPL:   9.107
	 Val. Loss: 1.908 |  Val. PPL:   6.737
Epoch: 06 | Time: 0m 30s
	Train Loss: 2.097 | Train PPL:   8.139
	 Val. Loss: 1.864 |  Val. PPL:   6.448
Epoch: 07 | Time: 0m 30s
	Train Loss: 2.009 | Train PPL:   7.456
	 Val. Loss: 1.810 |  Val. PPL:   6.110
Epoch: 08 | Time: 0m 31s
	Train Loss: 1.932 | Train PPL:   6.904
	 Val. Loss: 1.779 |  Val. PPL:   5.922
Epoch: 09 | Time: 0m 30s
	Train Loss: 1.868 | Train PPL:   6.474
	 Val. Loss: 1.762 |  Val. PPL:   5.825
Epoch: 10 | Time: 0m 30s
	Train Loss: 1.817 | Train PPL:   6.156
	 Val. Loss: 1.736 |  Val. PPL:   5.674

然后我们加载获得最低验证损失的参数，并计算测试集上的损失。

model.load_state_dict(torch.load('tut5-model.pt'))

test_loss = evaluate(model, test_iterator, criterion)

print(f'| Test Loss: {test_loss:.3f} | Test PPL: {math.exp(test_loss):7.3f} |')

| Test Loss: 1.795 | Test PPL:   6.022 |

推断

现在我们可以使用下面的translate_sentence函数对模型进行翻译。

所采取的步骤是:

如果源语句没有被标记(是字符串)，则标记源语句
附加《sos》和《eos》标记
将源语句数字化
把它转换成张量，然后加上batch维数
将源语句输入编码器
创建一个列表来保存输出语句，初始化时使用《sos》令牌
当我们还没有达到最大长度时
- 将当前输出句子的预测转换为具有批维度的张量
- 将当前输出和两个编码器输出放入解码器
- 从解码器获取下一个输出标记预测
- 添加预测到当前输出句子预测
- 如果预测是《eos》标记，则中断
将输出语句从索引转换为标记
返回输出语句(删除《sos》标记)和最后一层的注意力

def translate_sentence(sentence, src_field, trg_field, model, device, max_len = 50):

    model.eval()
        
    if isinstance(sentence, str):
        nlp = spacy.load('de')
        tokens = [token.text.lower() for token in nlp(sentence)]
    else:
        tokens = [token.lower() for token in sentence]

    tokens = [src_field.init_token] + tokens + [src_field.eos_token]
        
    src_indexes = [src_field.vocab.stoi[token] for token in tokens]

    src_tensor = torch.LongTensor(src_indexes).unsqueeze(0).to(device)

    with torch.no_grad():
        encoder_conved, encoder_combined = model.encoder(src_tensor)

    trg_indexes = [trg_field.vocab.stoi[trg_field.init_token]]

    for i in range(max_len):

        trg_tensor = torch.LongTensor(trg_indexes).unsqueeze(0).to(device)

        with torch.no_grad():
            output, attention = model.decoder(trg_tensor, encoder_conved, encoder_combined)
        
        pred_token = output.argmax(2)[:,-1].item()
        
        trg_indexes.append(pred_token)

        if pred_token == trg_field.vocab.stoi[trg_field.eos_token]:
            break
    
    trg_tokens = [trg_field.vocab.itos[i] for i in trg_indexes]
    
    return trg_tokens[1:], attention

接下来，我们有一个函数，它将显示在解码的每个步骤中模型对每个输入标记的关注程度。

def display_attention(sentence, translation, attention):
    
    fig = plt.figure(figsize=(10,10))
    ax = fig.add_subplot(111)
        
    attention = attention.squeeze(0).cpu().detach().numpy()
    
    cax = ax.matshow(attention, cmap='bone')
   
    ax.tick_params(labelsize=15)
    ax.set_xticklabels(['']+['']+[t.lower() for t in sentence]+[''], 
                       rotation=45)
    ax.set_yticklabels(['']+translation)

    ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
    ax.yaxis.set_major_locator(ticker.MultipleLocator(1))

    plt.show()
    plt.close()

然后我们开始翻译一些句子。注:这些句子都是精心挑选的。

首先，我们将从训练集获得一个示例:

example_idx = 2

src = vars(train_data.examples[example_idx])['src']
trg = vars(train_data.examples[example_idx])['trg']

print(f'src = {src}')
print(f'trg = {trg}')

src = ['ein', 'kleines', 'mädchen', 'klettert', 'in', 'ein', 'spielhaus', 'aus', 'holz', '.']
trg = ['a', 'little', 'girl', 'climbing', 'into', 'a', 'wooden', 'playhouse', '.']

然后我们将它传递给translate_sentence函数，该函数会给我们预测的翻译标记和注意力。

我们可以看到，它没有给出完全相同的翻译，但它捕捉了与原文相同的意思。它实际上是一个更字面的翻译，就像aus holz字面上翻译的of wood，所以wooden playhouse和 playhouse made of wood是一样的。

translation, attention = translate_sentence(src, SRC, TRG, model, device)

print(f'predicted trg = {translation}')

predicted trg = ['a', 'little', 'girl', 'is', 'climbing', 'into', 'a', 'playhouse', 'made', 'of', 'wood', '.', '']

我们可以查看模型的注意力，确保它给出合理的外观结果。

我们可以看到它在翻译make和of时对aus的正确重视。

display_attention(src, translation, attention)

让我们看看它如何翻译一个不属于训练集的例子。

example_idx = 2

src = vars(valid_data.examples[example_idx])['src']
trg = vars(valid_data.examples[example_idx])['trg']

print(f'src = {src}')
print(f'trg = {trg}')

src = ['ein', 'junge', 'mit', 'kopfhörern', 'sitzt', 'auf', 'den', 'schultern', 'einer', 'frau', '.']
trg = ['a', 'boy', 'wearing', 'headphones', 'sits', 'on', 'a', 'woman', "'s", 'shoulders', '.']

模型在这一方面做得很好，除了把wearing换成了in。

translation, attention = translate_sentence(src, SRC, TRG, model, device)

print(f'predicted trg = {translation}')

predicted trg = ['a', 'boy', 'in', 'headphones', 'sits', 'on', 'the', 'shoulders', 'of', 'a', 'woman', '.', '']

再一次，我们可以看到注意力被应用到有意义的词上，如junge for boy，等等。

display_attention(src, translation, attention)

最后，让我们检查测试集中的一个示例。

example_idx = 9

src = vars(test_data.examples[example_idx])['src']
trg = vars(test_data.examples[example_idx])['trg']

print(f'src = {src}')
print(f'trg = {trg}')

src = ['ein', 'mann', 'in', 'einer', 'weste', 'sitzt', 'auf', 'einem', 'stuhl', 'und', 'hält', 'magazine', '.']
trg = ['a', 'man', 'in', 'a', 'vest', 'is', 'sitting', 'in', 'a', 'chair', 'and', 'holding', 'magazines', '.']

我们在这里得到了一个大致正确的翻译，尽管模型改变了 in a chair到on a chair，并移除了and。

“magazines ”这个词不在我们的词汇表中，因此它是作为一个未知的符号输出的。

translation, attention = translate_sentence(src, SRC, TRG, model, device)

print(f'predicted trg = {translation}')

predicted trg = ['a', 'man', 'in', 'a', 'vest', 'is', 'sitting', 'on', 'a', 'chair', 'holding', '', '.', '']

这种关注似乎是正确的。没有注意力应用到und，因为它从来没有输出并且单词magazine正确的注意到，即使它不是输出词汇。

display_attention(src, translation, attention)

BELU

最后，我们计算模型的BLEU分数。

from torchtext.data.metrics import bleu_score

def calculate_bleu(data, src_field, trg_field, model, device, max_len = 50):
    
    trgs = []
    pred_trgs = []
    
    for datum in data:
        
        src = vars(datum)['src']
        trg = vars(datum)['trg']
        
        pred_trg, _ = translate_sentence(src, src_field, trg_field, model, device, max_len)
        
        #cut off  token
        pred_trg = pred_trg[:-1]
        
        pred_trgs.append(pred_trg)
        trgs.append([trg])
        
    return bleu_score(pred_trgs, trgs)

我们得到了约等于33的BLEU分数，相比之下，基于注意力的RNN模型给出了约等于28的分数。这使BLEU分数提高了17%。

bleu_score = calculate_bleu(test_data, SRC, TRG, model, device)

print(f'BLEU score = {bleu_score*100:.2f}')

BLEU score = 33.29

我们现在已经介绍了第一个不是使用RNN单元的模型!下一个是 Transformer模型，它甚至不使用卷积层-它只有线性层和大量的注意力机制。

完整代码

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

from torchtext.datasets import Multi30k
from torchtext.data import Field, BucketIterator

import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

import spacy
import numpy as np

import random
import math
import time

SEED = 1234

random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.backends.cudnn.deterministic = True


spacy_de = spacy.load('de_core_news_sm')
spacy_en = spacy.load('en_core_web_sm')

def tokenize_de(text):
    """
    Tokenizes German text from a string into a list of strings
    """
    return [tok.text for tok in spacy_de.tokenizer(text)]

def tokenize_en(text):
    """
    Tokenizes English text from a string into a list of strings
    """
    return [tok.text for tok in spacy_en.tokenizer(text)]

SRC = Field(tokenize = tokenize_de,
            init_token = '',
            eos_token = '',
            lower = True,
            batch_first = True)

TRG = Field(tokenize = tokenize_en,
            init_token = '',
            eos_token = '',
            lower = True,
            batch_first = True)

train_data, valid_data, test_data = Multi30k.splits(exts=('.de', '.en'),
                                                    fields=(SRC, TRG))

SRC.build_vocab(train_data, min_freq = 2)
TRG.build_vocab(train_data, min_freq = 2)


device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

BATCH_SIZE = 128

train_iterator, valid_iterator, test_iterator = BucketIterator.splits(
    (train_data, valid_data, test_data),
     batch_size = BATCH_SIZE,
     device = device)

class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim, n_layers, kernel_size, dropout, devoce, max_length = 100):
        super(Encoder, self).__init__()

        assert kernel_size % 2 == 1, "Kernel size must be odd!"

        self.device = device

        self.scale = torch.sqrt(torch.FloatTensor([0.5])).to(device) # scale = [0.4...] 取平方根

        self.tok_embedding = nn.Embedding(input_dim, emb_dim)
        self.pos_embedding = nn.Embedding(max_length, emb_dim)

        self.emb2hid = nn.Linear(emb_dim, hid_dim)
        self.hid2emb = nn.Linear(hid_dim, emb_dim)

        self.convs = nn.ModuleList([nn.Conv1d(in_channels = hid_dim,
                                              out_channels = 2 * hid_dim,
                                              kernel_size = kernel_size,
                                              padding = (kernel_size - 1) // 2)
                                    for _ in range(n_layers)])

        self.dropout = nn.Dropout(dropout)

    def forward(self, src):

        # src = [batch_size, seq_len]

        batch_size = src.shape[0]
        src_len = src.shape[1]

        # create position tensor
        pos = torch.arange(0, src_len).unsqueeze(0).repeat(batch_size, 1).to(self.device)

        # pos = [0, 1, 2, 3, ... , src_len - 1]
        # pos = [batch_size, src_len]

        # embed tokens and positions
        tok_embedded = self.tok_embedding(src)
        pos_embedded = self.pos_embedding(pos)

        # tok_embedded = pos_embedded = [batch_size, src_len, emb_dim]

        # combine embeddings by elementwise summing
        embedded = self.dropout(tok_embedded + pos_embedded)

        # embedded = [batch_size, src_len, emb_dim]

        # pass embedded through linear layer to convert from emb_dim to hid_dim
        conv_input = self.emb2hid(embedded)

        # conv_input = [batch_size, src_len, hid_dim]
        # permute for convolutional layer
        conv_input = conv_input.permute(0, 2, 1)

        # conv_input = [batch_size, hid_dim, src_len]

        # begin convolutional blocks...

        for i, conv in enumerate(self.convs):

            # pass through convolutional layer
            conved = conv(self.dropout(conv_input))

            # conved = [batch_size, hid_dim * 2, src_len]

            # pass through GLU activation function
            conved = F.glu(conved, dim=1)

            # conved = [batch_size, hid_dim, src_len]

            # apply residual connection
            conved = (conved + conv_input) * self.scale

            # conved = [batch_size, hid_dim, src_len]

            # set conv_input to conved for next loop iteration
            conv_input = conved

        # ... end convolutional blocks

        # permute and convert back to emb_dim
        conved = self.hid2emb(conved.permute(0, 2, 1))

        # conved = [batch_size, src_len, emb_dim]

        # elementwise sum output(conved) and input(embedded) to be use for attention
        combined = (conved + embedded) * self.scale

        # combined = [batch_size, src_len, emb_dim]

        return conved, combined

class Decoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, n_layers, kernel_size,dropout, trg_pad_idx, device, max_len = 100):
        super(Decoder, self).__init__()

        self.kernel_size = kernel_size
        self.trg_pad_idx = trg_pad_idx
        self.device = device

        self.scale = torch.sqrt(torch.FloatTensor([0.5])).to(device)

        self.tok_embedding = nn.Embedding(output_dim, emb_dim)
        self.pos_embedding = nn.Embedding(max_len, emb_dim)

        self.emb2hid = nn.Linear(emb_dim, hid_dim)
        self.hid2emd = nn.Linear(hid_dim, emb_dim)

        self.attn_hid2emb = nn.Linear(hid_dim, emb_dim)
        self.attn_emb2hid = nn.Linear(emb_dim, hid_dim)

        self.fc_out = nn.Linear(emb_dim, output_dim)

        self.convs = nn.ModuleList([nn.Conv1d(in_channels=hid_dim,
                                              out_channels=2 * hid_dim,
                                              kernel_size=kernel_size)
                                    for _ in range(n_layers)])

        self.dropout = nn.Dropout(dropout)

    def calculate_attention(self, embedded, conved, encoder_conved, encoder_combined):

        # embedded = [batch_size, src_len, emb_dim]
        # conved = [batch_size, hid_dim, trg_len]
        # encoder_conved = [batch_size, src_len, emb_dim]
        # encoder_combined = [batch_size, src_len, emb_dim]

        # permute and convert back to emb_dim
        conved_emb = self.attn_hid2emd(conved.permute(0, 2, 1))

        # conved_emb = [batch_size, trg_len, emb_dim]

        combined = (conved_emb + embedded) * self.scale

        # combined = [batch_size, trg_len, emb_dim]

        energy = torch.matmul(combined, encoder_conved.permute(0, 2, 1))

        # energy = [batch_size, trg_len, src_len]

        attention = F.softmax(energy, dim=2)

        # attention = [batch_size, trg_len, src_len]

        attention_encoding = torch.matmul(attention, encoder_combined)

        # attention_encoding = [batch_size, trg_len, emb_dim]

        # convert from emb_dim -> hid_dim
        attention_encoding = self.attn_emb2hid(attention_encoding)

        # attention_encoding = [batch_size, trg_len, hid_dim]

        # apply residual connection
        attended_combined = (conved + attention_encoding.permute(0, 2, 1)) * self.scale

        # attended_combined = [batch_size, hid_dim, trg_len]

        return attention, attended_combined

    def forward(self, trg, encoder_conved, encoder_combined):

        # trg = [batch_size, trg_len]
        # encoder_conved = encoder_combined = [batch_size, src_len, emb_dim]

        batch_size = trg.shape[0]
        trg_len = trg.shape[1]

        # create position tensor
        pos = torch.arange(0, trg_len).unsqueeze(0).repeat(batch_size, 1).to(self.device)

        # pos = [batch_size, trg_len]

        # embed tokens and positions
        tok_embedded = self.tok_embedding(trg)
        pos_embedded = self.pos_embedding(pos)

        # combine embeddings by elementwise summing
        embedded = self.dropout(tok_embedded + pos_embedded)

        # embedded = [batch_size, trg_len, emb_dim]

        # pass embedded through linear layer to go through emb_dim -> hid_dim
        conv_input = self.emb2hid(embedded)

        # conv_input = [batch_size, trg_len, hid_dim]

        # permute for convolutional layer
        conv_input = conv_input.permute(0, 2, 1)

        # conv_input = [batch_size, hid_dim, trg_len]

        batch_size = conv_input.shape[0]
        hid_dim = conv_input.shape[1]

        for i, conv in enumerate(self.convs):

            # apply dropout
            conv_input = self.dropout(conv_input)

            # need to pad so decoder can't "cheat"
            padding = torch.zeros(batch_size, hid_dim, self.kernel_size - 1).fill_(self.trg_pad_idx).to(self.device)

            padded_conv_input = torch.cat((padding, conv_input), dim=2)

            # pass through convolutional layer
            conved = conv(padded_conv_input)

            # conved = [batch_size, hid_dim * 2, trg_len]

            # pass through GLU activation function
            conved = F.glu(conved, dim = 1)

            # calculate attention
            attention, conved = self.calculate_attention(embedded, conved, encoder_conved, encoder_combined)

            # attention = [batch_size, trg_len, src_len]

            # apply residual connection
            conved = (conved + conv_input) * self.scale

            # conved = [batch_size, hid_dim, trg_len]

            # set conv_input to conved for next loop iteration
            conv_input = conved

        conved = self.hid2emd(conved.permute(0, 2, 1))

        # conved = [batch_size, trg_len, emb_dim]

        output = self.fc_out(self.dropout(conved))

        # output = [batch_size, trg_len, output_dim]

        return output, attention

class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder):
        super(Seq2Seq, self).__init__()

        self.encoder = encoder
        self.decoder = decoder

    def forward(self, src, trg):

        # src = [batch_size, src_len]
        # trg = [batch_size, trg_len - 1] ( token sliced off the end)

        # calculate z~u (encoder_conved) and (z~u + e) (encoder_combined)
        # encoder_conved is output from final encoder conv. block
        # encoder_combined is encoder_conved plus (elementwise) src embedding plus
        # positional embeddings
        encoder_conved, encoder_combined = self.encoder(src)

        # encoder_conved = [batch_size, src_len, emb_dim]
        # encoder_combined = [batch_size, src_len, emb_dim]

        # calculate predictions of next words
        # output is a batch of predictions for each word in the trg sentence
        # attention is a batch of attention scores across the src_sentence for each word in the trg_sentence
        output, attention = self.decoder(trg, encoder_conved, encoder_combined)

        # output = [batch_size, trg_len - 1, output_dim]
        # attention = [batch_size, trg_len - 1, src_len]

        return output, attention

INPUT_DIM = len(SRC.vocab)
OUTPUT_DIM = len(TRG.vocab)
EMB_DIM = 256
HID_DIM = 512 # each conv. layer has 2 * hid_dim filters
ENC_LAYERS = 10 # number of conv. blocks in encoder
DEC_LAYERS = 10 # number of conv. blocks in decoder
ENC_KERNEL_SIZE = 3 # must be odd!
DEC_KERNEL_SIZE = 3 # can be even or odd
ENC_DROPOUT = 0.25
DEC_DROPOUT = 0.25
TRG_PAD_IDX = TRG.vocab.stoi[TRG.pad_token]

enc = Encoder(INPUT_DIM, EMB_DIM, HID_DIM, ENC_LAYERS, ENC_KERNEL_SIZE, ENC_DROPOUT, device)
dec = Decoder(OUTPUT_DIM, EMB_DIM, HID_DIM, DEC_LAYERS, DEC_KERNEL_SIZE, DEC_DROPOUT, TRG_PAD_IDX, device)

model = Seq2Seq(enc, dec).to(device)

def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f'The model has {count_parameters(model):,} trainable parameters')

optimizer = optim.Adam(model.parameters())
criterion = nn.CrossEntropyLoss(ignore_index = TRG_PAD_IDX)

def train(model, iterator, optimizer, criterion, clip):

    model.train()

    epoch_loss = 0

    for i, batch in enumerate(iterator):

        src = batch.src
        trg = batch.trg

        optimizer.zero_grad()

        output, _ = model(src, trg[:, :-1])

        # output = [batch_size, trg_len - 1, output_dim]
        # trg = [batch_size, trg_len]

        output_dim = output.shape[-1]

        output = output.contiguous().view(-1, output_dim)
        trg = trg[:, 1:].contiguous().view(-1)

        # output = [batch_size * trg_len -1, output_dim]
        # trg = [batch_size, trg_len - 1]

        loss = criterion(output, trg)

        loss.backward()

        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)

        optimizer.step()

        epoch_loss += loss.item()

    return epoch_loss / len(iterator)


def evaluate(model, iterator, criterion):
    model.eval()

    epoch_loss = 0

    with torch.no_grad():
        for i, batch in enumerate(iterator):
            src = batch.src
            trg = batch.trg

            output, _ = model(src, trg[:, :-1])

            # output = [batch size, trg len - 1, output dim]
            # trg = [batch size, trg len]

            output_dim = output.shape[-1]

            output = output.contiguous().view(-1, output_dim)
            trg = trg[:, 1:].contiguous().view(-1)

            # output = [batch size * trg len - 1, output dim]
            # trg = [batch size * trg len - 1]

            loss = criterion(output, trg)

            epoch_loss += loss.item()

    return epoch_loss / len(iterator)

def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

N_EPOCHS = 10
CLIP = 0.1

best_valid_loss = float('inf')

for epoch in range(N_EPOCHS):

    start_time = time.time()

    train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
    valid_loss = evaluate(model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'tut5-model.pt')

    print(f'Epoch: {epoch + 1:02} | Time: {epoch_mins}m {epoch_secs}s')
    print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. PPL: {math.exp(valid_loss):7.3f}')


model.load_state_dict(torch.load('tut5-model.pt'))

test_loss = evaluate(model, test_iterator, criterion)

print(f'| Test Loss: {test_loss:.3f} | Test PPL: {math.exp(test_loss):7.3f} |')


def translate_sentence(sentence, src_field, trg_field, model, device, max_len=50):
    model.eval()

    if isinstance(sentence, str):
        nlp = spacy.load('de')
        tokens = [token.text.lower() for token in nlp(sentence)]
    else:
        tokens = [token.lower() for token in sentence]

    tokens = [src_field.init_token] + tokens + [src_field.eos_token]

    src_indexes = [src_field.vocab.stoi[token] for token in tokens]

    src_tensor = torch.LongTensor(src_indexes).unsqueeze(0).to(device)

    with torch.no_grad():
        encoder_conved, encoder_combined = model.encoder(src_tensor)

    trg_indexes = [trg_field.vocab.stoi[trg_field.init_token]]

    for i in range(max_len):

        trg_tensor = torch.LongTensor(trg_indexes).unsqueeze(0).to(device)

        with torch.no_grad():
            output, attention = model.decoder(trg_tensor, encoder_conved, encoder_combined)

        pred_token = output.argmax(2)[:, -1].item()

        trg_indexes.append(pred_token)

        if pred_token == trg_field.vocab.stoi[trg_field.eos_token]:
            break

    trg_tokens = [trg_field.vocab.itos[i] for i in trg_indexes]

    return trg_tokens[1:], attention

def display_attention(sentence, translation, attention):
    fig = plt.figure(figsize=(10, 10))
    ax = fig.add_subplot(111)

    attention = attention.squeeze(0).cpu().detach().numpy()

    cax = ax.matshow(attention, cmap='bone')

    ax.tick_params(labelsize=15)
    ax.set_xticklabels([''] + [''] + [t.lower() for t in sentence] + [''],
                       rotation=45)
    ax.set_yticklabels([''] + translation)

    ax.xaxis.set_major_locator(ticker.MultipleLocator(1))
    ax.yaxis.set_major_locator(ticker.MultipleLocator(1))

    plt.show()
    plt.close()

# example_idx = 2
# 
# src = vars(train_data.examples[example_idx])['src']
# trg = vars(train_data.examples[example_idx])['trg']
# 
# print(f'src = {src}')
# print(f'trg = {trg}')
# 
# translation, attention = translate_sentence(src, SRC, TRG, model, device)
# 
# print(f'predicted trg = {translation}')
# 
# display_attention(src, translation, attention)
# 
# example_idx = 2
# 
# src = vars(valid_data.examples[example_idx])['src']
# trg = vars(valid_data.examples[example_idx])['trg']
# 
# print(f'src = {src}')
# print(f'trg = {trg}')
# 
# translation, attention = translate_sentence(src, SRC, TRG, model, device)
# 
# print(f'predicted trg = {translation}')
# 
# display_attention(src, translation, attention)
# 
# example_idx = 9
# 
# src = vars(test_data.examples[example_idx])['src']
# trg = vars(test_data.examples[example_idx])['trg']
# 
# print(f'src = {src}')
# print(f'trg = {trg}')
# 
# translation, attention = translate_sentence(src, SRC, TRG, model, device)
# 
# print(f'predicted trg = {translation}')
# 
# display_attention(src, translation, attention)
# 
# from torchtext.data.metrics import bleu_score


def calculate_bleu(data, src_field, trg_field, model, device, max_len=50):
    trgs = []
    pred_trgs = []

    for datum in data:
        src = vars(datum)['src']
        trg = vars(datum)['trg']

        pred_trg, _ = translate_sentence(src, src_field, trg_field, model, device, max_len)

        # cut off  token
        pred_trg = pred_trg[:-1]

        pred_trgs.append(pred_trg)
        trgs.append([trg])

    return bleu_score(pred_trgs, trgs)

bleu_score = calculate_bleu(test_data, SRC, TRG, model, device)

print(f'BLEU score = {bleu_score*100:.2f}')

你可能感兴趣的:(自然语言处理,自然语言处理,pytorch,深度学习)

使用 LangChain 构建多PDF文档聊天应用 jkgSFS langchain pdf easyui python
随着大型语言模型（LLMs）的普及，如何将它们应用于文档处理成为了热门话题之一。本文将通过一个教程，展示如何使用LangChain构建一个能够处理多个PDF文档并与之对话的应用。技术背景介绍LangChain是一个广受欢迎的库，能够帮助开发者轻松地与LLMs和不同的嵌入技术进行整合。它提供了方便的接口和工具，使得复杂的自然语言处理任务变得简单高效。核心原理解析我们将利用LangChain来读取多个
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
使用 PyTorch 从头开始构建您自己的 Llama 3 架构子然在打码 pytorch llama 人工智能
https://www.aisolink.com/build-your-own-llama-3-architecture-from-scratch-using-pytorch全文摘要本文提供了一个详细的指南，介绍如何使用PyTorch从头开始构建Llama3模型的完整架构，并对自定义数据集进行训练和推理。文章涵盖了构建输入块、解码器块和输出块的步骤，并提供了相应的代码示例。最终目标是构建一个功能齐
大模型的RAG微调与Agent：提升智能代理的效率与效果 WeeJot 人工智能人工智能
目录编辑引言RAG模型概述检索阶段生成阶段RAG模型的微调数据集选择损失函数设计微调策略超参数调整RAG模型在智能代理中的应用客户服务信息检索内容创作决策支持：结论引言在人工智能的快速发展中，大型预训练模型（LLMs）已经成为推动技术进步的关键力量。这些模型通过在海量数据上的预训练，掌握了丰富的语言知识和模式识别能力，从而在多种自然语言处理任务上展现出卓越的性能。然而，预训练模型的通用性也意味着它
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
ChatGPT 绘图的工作原理
ChatGPT的绘图功能结合了自然语言处理（NLP）和图像生成的技术，这种综合能力依赖于预训练模型（如GPT-4）和图像生成模型（如DALL-E）之间的紧密协作。ChatGPT本质上是一个大规模的语言模型，但通过与图像生成模型集成，它得以执行基于描述生成图像的任务。接下来，我们将从模型架构、训练方法、推理机制和一些技术挑战等方面，详细讨论ChatGPT进行绘图的工作原理。
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
AscendC从入门到精通系列（四）使用Pybind调用AscendC算子人工智能深度学习
如果已经通过AscendC编程语言实现了算子，那该如何通过pybind进行调用呢？1Pybind调用介绍通过PyTorch框架进行模型的训练、推理时，会调用很多算子进行计算，其中的调用方式与kernel编译流程有关。对于自定义算子工程，需要使用PyTorchAscendAdapter中的OP-Plugin算子插件对功能进行扩展，让torch可以直接调用自定义算子包中的算子，详细内容可以参考PyTo
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
2024 年技术盘点与展望：从 AI 辅助到个人成长的多元探索 109702008 杂谈人工智能
一、引言2024年，技术领域的发展日新月异，我在这片汹涌的浪潮中不断探索与成长。这一年，我不仅见证了人工智能技术的飞速发展，还通过AI辅助创作、AI赋能编程以及参与各类竞赛与课程，实现了个人技术的显著提升与视野的拓展。本文将从总结盘点的角度，回顾我在技术领域的成长历程，并对未来进行展望。二、AI辅助创作：提升写作效率与质量在自然语言处理技术（NLP）的推动下，AI写作工具成为了我的得力助手。这些工
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
torch.utils.data.Dataset()和torch.utils.data.DataLoader() 我叫罗泽南深度学习 python
torch.utils.data.Dataset()和torch.utils.data.DataLoader()是Pytorch中处理数据集和批量加载数据的重要工具。下面将详细介绍它们的作用、用法，并通过一个简单的例子来演示如何使用它们。torch.utils.data.Dataset()Dataset是Pytorch数据加载的基类，用于表示一个数据集。用户可以继承Dataset类并实现其两个方法
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方