卷心菜不卷Iris

《Attention Is All You Need》论文笔记

下面是对《Attention Is All You Need》这篇论文的浅读。

参考文献：

李沐论文带读

HarvardNLP

《哈工大基于预训练模型的方法》

下面是对这篇论文的初步概览：

对Seq2Seq模型、Transformer的概括：

下面是蒟蒻在阅读完这篇论文后做的一些笔记：

为什么会出现“注意力机制”？

基于循环神经网络的序列到序列模型有一个基本假设，就是原始序列的最后一个隐含状态（一个向量）包含了该序列的全部信息。然而，该假设显然不合理，尤其是当序列比较长时，要做到这一点就更困难。为了解决该问题，注意力模型应运而生。

为了解决序列到序列模型记忆长序列能力不足的问题，一个非常直观的想法是：

当要生成一个目标语言单词时，不光考虑前一个时刻的状态和已经生成的单词，还考虑当前要生成的单词和源语言句子中的哪些单词更相关，即更关注源语言的哪些词，这种做法就叫作注意力机制（Attention mechanism）。图4-14给出了一个示例，假设模型已经生成单词“我”后，要生成下一个单词，显然和源语言句子中的“love”关系最大，因此将源语言句子中“love”对应的状态乘以一个较大的权重，如0.6，而其余词的权重则较小，最

终将源语言句子中每个单词对应的状态加权求和，并用作新状态更新的一个额外输入。

注意力权重的计算公式为：

式中， $h_s$ 表示源序列中s时刻的状态； $h_{t-1}$ 表示目标序列中前一个时刻的状态；attn是注意力计算公式，即通过两个输入状态的向量，计算一个源序列s时刻的注意力分数 $\hat \alpha_s$ ； $\hat \alpha = [\hat \alpha_1,\hat \alpha_2,\cdots,\hat \alpha_L]$ 。其中L为源序列的长度；最后对整个源序列每个时刻的注意力分数使用Softmax函数进行归一化，获得最终的注意力权重 $\alpha_s$ 。

注意力公式attn的计算方式有多种，如：

通过引入注意力机制，使得基于循环神经网络的序列到序列模型的准确率有了大幅度的提高。

为什么会出现“自注意力机制”？

受注意力机制的启发，当要表示序列中某一时刻的状态时，可以通过该状态与其他时刻状态之间的相关性（注意力）计算，即所谓的“观其伴、知其义”，这又被称作自注意力机制（Self-attention）。

具体地，假设输入为 $n$ 个向量组成的序列 $x_1,x_2,\cdots, x_n$ ，输出为每个向量对应的新的向量表示 $y_1,y_2,\cdots, y_n$ ，其中所有向量的大小均为 $d$ 。那么 $y_i$ 的计算公式为：

式中， $j$ 是整个序列的索引值； $\alpha_{ij}$ 是 $x_i$ 与 $x_j$ 之间的注意力（权重），其通过式（4-26）中的attn函数计算，然后再经过Softmax函数进行归一化后获得。直观上的含义是如果 $x_i$ 与 $x_j$ 越相关，则它们计算的注意力值就越大，那么 $x_j$ 对 $x_i$ 对应的新的表示 $y_i$ 的贡献就越大。

**通过自注意力机制，可以直接计算两个距离较远的时刻之间的关系。**而在循环神经网络中，由于信息是沿着时刻逐层传递的，因此当两个相关性较大的时刻距离较远时，会产生较大的信息损失。虽然引入了门控机制模型，如LSTM等，可以部分解决这种长距离依赖问题，但是治标不治本。因此，基于自注意力机制的自注意力模型已经逐步取代循环神经网络，成为自然语言处理的标准模型。

为什么会出现“Transformer”？

然而，要想真正取代循环神经网络，自注意力模型还需要解决如下问题：

在计算自注意力时，没有考虑输入的位置信息，因此无法对序列进行建模；
输入向量 $x_i$ 同时承担了三种角色，即计算注意力权重时的两个向量以及被加权的向量，导致其不容易学习；
只考虑了两个输入序列单元之间的关系，无法建模多个输入序列单元之间更复杂的关系；
自注意力计算结果互斥，无法同时关注多个输入。

下面分别就这些问题给出相应的解决方案，融合了以下方案的自注意力模型拥有一个非常炫酷的名字——Transformer。

（1）融入位置信息

位置信息对于序列的表示至关重要，原始的自注意力模型没有考虑输入向量的位置信息，导致其与词袋模型类似，两个句子只要包含的词相同，即使顺序不同，它们的表示也完全相同。为了解决这一问题，需要为序列中每个输入的向量引入不同的位置信息以示区分。有两种引入位置信息的方式：

位置嵌入（Position Embeddings），位置嵌入与词嵌入类似，即为序列中每个绝对位置赋予一个连续、低维、稠密的向量表示；
位置编码（Position Encodings），使用函数 $f:\mathcal{N}\to \mathcal{R^d}$ ，直接将一个整数（位置索引值）映射到一个 $d$ 维向量上。

位置编码的映射公式如下：

式中， $p$ 为序列中的位置索引值； $0\leq i< d$ 是位置编码向量中的索引值。

无论是使用位置嵌入还是位置编码，在获得一个位置对应的向量后，再与该位置对应的词向量进行相加，即可表示该位置的输入向量。这样即使词向量相同，但是如果它们所处的位置不同，其最终的向量表示也不相同，从而解决了原始自注意力模型无法对序列进行建模的问题。

（2）输入向量角色信息

原始的自注意力模型在计算注意力时直接使用两个输入向量，然后使用得到的注意力对同一个输入向量加权，这样导致**一个输入向量同时承担了三种角色：查询（Query）、键（Key）和值（Value）。**更好的做法是，对不同的角色使用不同的向量。为了做到这一点，可以使用不同的参数矩阵对原始的输入向量做线性变换，从而让不同的变换结果承担不同的角色。

具体地，分别使用三个不同的参数矩阵 $W^q,W^k,W^v$ 将输入向量 $x_i$ 映射为三个新的向量 $q_i=W^qx_i、 k_i=W^kx_i 、v_i=W^vx_i$ ，分别表示查询、键和值对应的向量。新的输出向量计算公式为：

式中， $\hat \alpha_i=[\hat \alpha_{i1},\hat \alpha_{i2},\cdots,\hat \alpha_{iL}]$ ，其中 $L$ 为序列的长度。

（3）多层自注意力

原始的自注意力模型仅考虑了序列中任意两个输入序列单元之间的关系，而在实际应用中，往往需要同时考虑更多输入序列单元之间的关系，即更高阶的关系。如果直接建模高阶关系，会导致模型的复杂度过高。

一方面，类似于图模型中的消息传播机制（Message Propogation），这种高阶关系可以通过堆叠多层自注意力模型实现；
另一方面，类似于多层感知器，如果直接堆叠多层注意力模型，由于每层的变换都是线性的（注意力计算一般使用线性函数），最终模型依然是线性的。

因此，为了增强模型的表示能力，往往在每层自注意力计算之后，增加一个非线性的多层感知器（MLP）模型。另外， 如果将自注意力模型看作特征抽取器，那么多层感知器就是最终的分类器。同时，为了使模型更容易学习，还可以使用层归一化（Layer Normalization）、残差连接（Residual Connections）等深度学习的训练技巧。自注意力层、非线性层以及以上的这些训练技巧，构成了一个更大的Transformer层，也叫作Transformer块（Block），如图4-15所示。

（4）自注意力结果互斥

由于自注意力结果需要经过Softmax归一化，导致即使一个输入和多个其他的输入相关，也无法同时为这些输入赋予较大的注意力值，即自注意力结果之间是互斥的，无法同时关注多个输入。因此，如果能使用多组自注意力模型产生多组不同的注意力结果，则不同组注意力模型可能关注到不同的输入上，从而增强模型的表达能力。

那么如何产生多组自注意力模型呢？方法非常简单，只需要设置多组映射矩阵即可，然后将产生的多个输出向量拼接。为了将输出结果作为下一组的输入，还需要将拼接后的输出向量再经过一个线性映射，映射回d维向量。该模型又叫作多头自注意力（Multi-head Self-attention）模型。从另一方面理解，多头自注意力机制相当于多个不同的自注意力模型的集成（Ensemble），也会增强模型的效果。类似卷积神经网络中的多个卷积核，也可以将不同的注意力头理解为抽取不同类型的特征。

以上介绍的Transformer模型可以很好地对一个序列编码。此外，与循环神经网络类似，Transformer也可以很容易地实现解码功能，将两者结合起来，就实现了一个序列到序列的模型，于是可以完成机器翻译等多种自然语言处理任务。解码模块的实现与编码模块基本相同，不过要接收编码模块的最后一层输出作为输入，这也叫作记忆（Memory），另外还要将已经部分解码的输出结果作为输入，如图4-16所示。

与循环神经网络相比，Transformer模型的优点：

Transformer能够直接建模输入序列单元之间更长距离的依赖关系，从而使得Transformer对于长序列建模的能力更强；
另外，在Transformer的编码阶段，由于可以利用GPU等多核计算设备并行地计算Transformer块内部的自注意力模型，而循环神经网络需要逐个计算，因此Transformer具有更高的训练速度。

与循环神经网络相比，Transformer模型的缺点：

**参数量过于庞大。**每一层的Transformer块大部分参数集中在图4-15中的绿色方框中，即自注意力模型中输入向量的三个角色映射矩阵、多头机制导致相应参数的倍增和引入非线性的多层感知器等。更主要的是，还需要堆叠多层Transformer块，从而参数量又扩大多倍。最终导致一个实用的Transformer模型含有巨大的参数量。以本书后续章节将要介绍的BERT模型为例， BERT-base含有12层Transformer块，参数量超过1.1亿个，而24层的BERT-large，参数量达到了3.4亿个之多。巨大的参数量导致Transformer模型非常不容易训练，尤其是当训练数据较小时。

因此，为了降低模型的训练难度，基于大规模数据的预训练模型应运而生，这也是本书将要介绍的重点内容。唯此，才能发挥Transformer模型强大的表示能力。

模型实现

新版本的PyTorch（1.2版及以上）实现了Transformer模型。其中，nn.TransformerEncoder实现了编码模块，它是由多层Transformer块构成的，每个块使用TransformerEncoderLayer实现。下面演示具体的示例。

import torch
from torch import nn

# 创建一个Transformer块,每个输入向量、输出向量的维度为4、头数为2
encoder_layer = nn.TransformerEncoderLayer(d_model=4, nhead=2)
# 三个参数分别为 序列的长度、批次大小、每个输入向量的维度
src = torch.rand(2, 3, 4)   # [seq_len, batch_size, input_size]
# out向量形状为[2,3,4]
out = encoder_layer(src)
print(out)

然后，可以将多个Transformer块堆叠起来，构成一个完整的nn.TransformerEncoder。

import torch
from torch import nn

# 创建一个Transformer块,每个输入向量、输出向量的维度为4、头数为2
encoder_layer = nn.TransformerEncoderLayer(d_model=4, nhead=2)
# 三个参数分别为 序列的长度、批次大小、每个输入向量的维度
src = torch.rand(2, 3, 4)   # [seq_len, batch_size, input_size]

transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)
# out向量形状为[2,3,4]
out = transformer_encoder(src)
print(out)
print(out.shape)

解码模块也类似，TransformerDecoderLayer定义了一个解码模块的Transformer块，通过多层块堆叠构成nn.TransformerDecoder，下面演示具体的调用方式。

memory = transformer_encoder(src)
decoder_layer = nn.TransformerDecoderLayer(d_model=4, nhead=2)
transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)
out_part = torch.rand(2, 3, 4)
out = transformer_decoder(out_part, memory)
# out向量形状为[2,3,4]
print(out)

Abstract

主流的序列转换模型基于复杂的循环或卷积神经网络，其中包括一个编码器和一个解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer，它完全基于注意力机制，无需循环和卷积。在两项机器翻译任务上的实验表明，这些模型的质量更优，同时可并行化程度更高，所需的训练时间也大大减少。在 WMT 2014 英德翻译任务中，我们的模型达到了 28.4 BLEU，比包括集合在内的现有最佳结果提高了 2 BLEU 以上。在 WMT 2014 英法翻译任务中，我们的模型在 8 个 GPU 上进行了 3.5 天的训练后，取得了 41.8 分的单模型最新 BLEU 分数，这只是文献中最佳模型训练成本的一小部分。我们将 Transformer 成功地应用于英语成分解析，并同时使用大量和有限的训练数据，从而证明 Transformer 可以很好地泛化到其他任务中。

解读

这段论文概括了该论文的主要内容和贡献：

介绍了序列转换模型主要基于复杂的循环或卷积神经网络，通常包含编码器和解码器，最好的模型还使用了注意力机制连接编码器和解码器。
提出了Transformer，一个全新的简单的网络架构，完全基于注意力机制，不需要循环或卷积。
在两个机器翻译任务上的实验表明，该模型质量更优异，更易于并行化，训练时间也大大减少。
在WMT 2014英德翻译任务上，该模型BLEU得分达到28.4，超过了之前最佳结果(包括集成模型)2个BLEU。
在WMT 2014英法翻译任务上，该模型取得41.8的新state-of-the-art单模型BLEU得分，训练时间是之前文献中最佳模型的小部分。
通过英语成分解析任务表明，该模型可以很好地泛化到其他任务，即使是训练数据有限的情况。

总体上，该论文提出了Transformer作为一个全新的序列转换模型架构，完全基于注意力，结果表明它的质量更优异，训练更高效，且可以很好地泛化到其他NLP任务，是一个划时代的进步。

Introduction

循环神经网络，尤其是长短期记忆[13]和门控循环[7]神经网络，已被牢固确立为语言建模和机器翻译等序列建模和转译问题的最先进方法[35, 2, 5]。自此以后，许多人继续努力推动循环语言模型和编码器-解码器架构的发展[38, 24, 15]。

循环模型通常沿着输入和输出序列的符号位置进行因子计算。将位置与计算时间的步长对齐，它们会生成隐藏状态 $h_t$ 的序列，作为前一个隐藏状态 $h_{t-1}$ 和位置 $t$ 的输入的函数。这种固有的序列性质排除了训练实例内的并行化，这在较长的序列长度中变得至关重要，因为内存约束限制了跨实例的批处理。最近的研究通过因式分解技巧[21]和条件计算[32]显著提高了计算效率，同时也改善了后者的模型性能。然而，顺序计算的基本限制仍然存在。

在各种任务中，注意力机制已成为引人注目的序列建模和转换模型的一个组成部分，它可以对依赖关系进行建模，而无需考虑其在输入或输出序列中的距离[2, 19]。然而，除了少数情况[27]，这种注意力机制都是与循环网络结合使用的。

在这项工作中，我们提出了 Transformer 模型架构，它摒弃了循环，而是完全依赖注意力机制来绘制输入和输出之间的全局依赖关系。Transformer 可以大大提高并行化程度，在 8 个 P100 GPU 上只需训练 12 个小时，翻译质量就能达到新的水平。

解读

这段论文介绍了使用循环神经网络(尤其是LSTM和GRU)在序列建模和序列转录任务(如语言模型和机器翻译)上的发展历程，以及最新使用注意力机制提升模型性能的研究进展。主要概括如下：

循环神经网络(尤其是LSTM和GRU)已经确立为序列建模和序列转录任务的最优方法。
许多后续工作持续推进循环语言模型和编码器-解码器架构的发展。
循环模型通常沿输入输出序列的符号位置进行计算，这决定了其固有的顺序计算特性。
顺序计算特性限制了训练样本内的并行化，这在长序列时成为瓶颈。
最新工作通过分解技巧和条件计算提高了计算效率和模型性能。
注意力机制已经成为各种序列建模和转录任务中强大模型的关键组成部分。
除了少数情况，注意力机制通常与循环网络结合使用。
本文提出了Transformer，一个完全依赖注意力机制的新模型架构，摒弃了循环结构。
Transformer允许显著更高程度的并行化，在8个P100 GPU上训练12小时就能达到最优翻译质量。

总体上，这段概括总结了循环网络在序列建模中的发展，以及注意力机制的引入带来的突破，以及本文提出的全新的完全依赖注意力的Transformer架构。

Background

减少顺序计算的目标也是 Extended Neural GPU[16]、ByteNet[18]和 ConvS2S[9]的基础，它们都使用卷积神经网络作为基本构建模块，并行计算所有输入和输出位置的隐藏表示。在这些模型中，将两个任意输入或输出位置的信号联系起来所需的运算次数随位置间距离的增加而增加，ConvS2S 是线性增加，ByteNet 是对数增加。这使得学习远距离位置之间的依赖关系变得更加困难[12]。在 Transformer 中，这将被减少到一个恒定的操作数，但代价是由于平均注意力加权位置而降低了有效分辨率，我们在 3.2 节中介绍了多头注意力来抵消这一影响。

Self-attention（有时也称为intra-attention）是一种注意机制，它将单个序列的不同位置联系起来，以计算序列的表征。Self-attention已成功应用于多种任务中，包括阅读理解、抽象概括、文本蕴含和学习与任务无关的句子表征 [4,27,28,22]。

端到端记忆网络基于循环注意力机制，而非序列对齐循环，在简单语言问题解答和语言建模任务中表现出色[34]。

然而，据我们所知，Transformer 是第一个完全依靠自注意力来计算输入和输出表示而不使用序列对齐 RNNs 或卷积的转换模型。在下面的章节中，我们将描述 Transformer，激发自注意力，并讨论它与 [17, 18] 和 [9] 等模型相比的优势。

解读

这段论文主要概括了以下内容：

减少顺序计算也是Extended Neural GPU、ByteNet和ConvS2S等模型的基础，这些模型都使用卷积网络作为基本模块，并行地为所有输入输出位置计算隐层表示。
在这些模型中，连接任意两个位置的操作数量随着两位置间距离的增大而线性或对数增长，这使学习远距离依赖更困难。
Transformer通过自注意力机制将其减少为恒定数量的操作，虽然由于平均注意加权位置导致有效分辨率下降，但通过多头注意力进行缓解。
自注意力(又称内部注意力)是一种注意力机制，用于关联单个序列中不同位置，以计算序列的表示。
自注意力已在多种任务中成功应用，如阅读理解、摘要抽象、蕴含关系和任务无关的句子表示等。
端到端记忆网络基于循环注意力而不是序列对齐的循环，在简单语言的问答和语言建模任务中表现良好。
尽我们所知，Transformer是第一个完全依赖自注意力来计算输入输出表示的序列转换模型，不使用序列对齐的RNN或卷积。
我们将描述Transformer模型，阐明自注意力的动机，并讨论它相对于其他模型的优势。

总之，这段概括阐明了自注意力在多个NLP任务中的应用，以及Transformer如何利用自注意力来克服基于循环或卷积的模型的局限性。

Model Architecture

大多数具有竞争力的神经序列转换模型都具有编码器-解码器结构 [5, 2, 35]。在这里，编码器将输入的符号表示序列 $(x_1,\cdots,x_n)$ 映射为连续表示序列 $z=(z_1,\cdots,z_n)$ 。给定 $z$ 后，解码器会逐个元素生成一个符号输出序列 $(y_1,\cdots,y_m)$ 。在每一步中，模型都是自回归的[10]，在生成下一步时，将先前生成的符号作为额外输入。

Transformer model遵循这种整体架构，图 1 的左半部分和右半部分分别显示了编码器和解码器采用堆叠式自注意力和点式全连接层的整体架构。

3.1 Encoder and Decoder Stacks

Encoder

编码器由 N = 6 层相同的层堆叠组成。每一层都有两个子层。第一个是多头自注意机制，第二个是简单的位置全连接前馈网络。我们在两个子层的每个周围都采用了残差连接[11]，然后进行层归一化[1]。也就是说，每个子层的输出都是 $L a yer N or m (x + S u b l a yer (x))$ ，其中 $S u b l a yer (x)$ 是子层本身实现的函数。为了方便这些残差连接，模型中的所有子层以及嵌入层都会产生维数为 $d_{model}=512$ 的输出。

Decoder

解码器也由 N = 6 层相同的层堆叠组成。除了每个编码器层中的两个子层外，解码器还插入了第三个子层，对编码器堆叠的输出执行多头注意力。与编码器类似，我们在每个子层周围采用残差连接，然后进行层归一化。我们还修改了解码器堆叠中的自注意力子层，以防止位置关注到后续位置。这种掩蔽，结合输出词嵌入偏移一个位置的事实，确保了对位置 $i$ 的预测只能依赖小于 $i$ 位置的已知输出。

3.2 Attention

注意力函数可以描述为将一个查询和一组键值对映射到一个输出，其中查询、键、值和输出都是向量。输出是以值的加权和来计算的，其中分配给每个值的权重是通过查询与相应键的兼容函数来计算的。

3.2.1 Scaled Dot-Product Attention

我们将这种特殊的注意力称为 “Scaled Dot-Product Attention（缩放点积注意力）”（图 2）。输入包括维度为 $d_k$ 的查询queries 、键keys和维度为 $d_v$ 的值values。我们计算查询与所有键的点积，将每个点积除以 $\sqrt {d_k}$ ，然后应用softmax函数来获得值的权重。

实际上，我们同时对一组查询计算注意力函数，这些查询被打包成一个矩阵 $Q$ 。我们计算的输出矩阵为：

最常用的两种注意力函数是加法注意力[2]和点积（乘法）注意力。点积注意力与我们的算法相同，只是缩放因子为 $\dfrac {1}{\sqrt {d_k}}$ 。加法注意力使用单隐层前馈网络计算相容函数。虽然两者的理论复杂度相似，但点积注意力在实际应用中速度更快，空间效率更高，因为它可以使用高度优化的矩阵乘法代码来实现。虽然在 $d_k$ 值较小的情况下，这两种机制的表现类似，但在 $d_k$ 值较大的情况下，加法注意力在不缩放的情况下优于点积注意力[3]。我们猜测，对于较大的 $d_k$ 值，点积的幅度会越来越大，从而将softmax函数推向梯度极小的区域。为了消除这种影响，我们将点乘缩放 $\dfrac {1}{\sqrt {d_k}}$ 。（论文中的这段解释了为什么要乘上 $\dfrac {1}{\sqrt {d_k}}$ ）

3.2.2 Multi-Head Attention

我们发现，与其使用 $d_{model}$ 维度的键、值和查询来执行单一的注意力函数，不如将查询、键和值分别线性投影到 $d_k,d_k,d_v$ 维度，并将不同的已经学习过的线性投影进行 $h$ 次投影。然后，我们对每个投影版本的查询、键和值并行执行注意力函数，得到 $d_v$ 维度的输出值。（论文中的这段解释了为什么要将 $d_{model}$ 维度的键、值和查询线性投影到 $d_k,d_k,d_v$ 维度）

如图 2 所示，这些值被串联拼接起来并再次投影，从而得到最终值。

多头注意力机制允许模型在不同位置共同关注来自不同表征子空间的信息。而在单头注意力机制的情况下，平均化会抑制这一点。（论文中的这段解释了为什么要使用Multi-head attention而不是single attention head）

在这项工作中，我们采用了 $h = 8$ 个并行注意力层，或称为 “头”。其中，我们使用 $d_k=d_v=d_{model}/h=64$ 。由于减少了每个头的维度，总计算成本与全维度的单头注意力相似。

3.2.3 Applications of Attention in our Model

Transformer 模型以三种不同的方式使用多头注意力：

在 "编码器-解码器注意 "层中，查询来自前一个解码器层，而记忆键和记忆值则来自编码器的输出。这使得解码器中的每个位置都能关注输入序列中的所有位置这模仿了序列到序列模型（如 [38, 2, 9]）中典型的编码器-解码器注意机制。（论文中的这段解释了为什么Transformer解码器中的每个位置都能关注输入序列中的所有位置）
编码器包含自注意层。在自注意层中，所有的键、值和查询都来自同一个地方，在这种情况下，就是编码器中上一层的输出。编码器中的每个位置都可以关注编码器上一层的所有位置。
同样，解码器中的自注意力层允许解码器中的每个位置关注解码器中包括该位置在内的所有位置。我们需要防止解码器中的信息向左流动，以保持自回归特性。我们通过屏蔽（设置为 $-\infty$ ） softmax 输入中所有与非法连接相对应的值，在缩放点积注意力内部实现这一点见图 2。（论文中的这段展示了如何防止解码器中的信息向左流动，以保持自回归特性的方法）

3.3 Position-wise Feed-Forward Networks

除了注意力子层外，我们的编码器和解码器中的每一层都包含一个全连接的前馈网络，该网络分别对每个位置进行相同的处理。这包括两个线性变换，中间有一个 ReLU 激活。

虽然不同位置的线性变换相同，但各层使用的参数不同。另一种描述方法是两个内核大小为1的卷积。输入和输出的维度为 $d_{model}=512$ ，内层的维度为 $d_{ff}=2048$ 。

3.4 Embeddings and Softmax

与其他序列转换模型类似，我们使用学习到的嵌入将输入标记和输出标记转换为维数为 $d_{model}$ 。我们还使用通常的学习线性变换和 softmax 函数将解码器输出转换为预测的下一个标记概率。在我们的模型中，我们在两个嵌入层和pre-softmax最大线性变换之间共享相同的权重矩阵，这与 [30] 相似。在嵌入层中，我们将这些权重乘以 $\sqrt {d_{model}}$ 。

3.5 Positional Encoding

**由于我们的模型不包含循环和卷积，为了让模型能够利用序列的顺序，我们必须注入一些关于序列中标记的相对或绝对位置的信息。为此，我们在编码器和解码器堆叠底部的输入嵌入层中添加了 “位置编码”。位置编码的维度 $d_{model}$ 与嵌入层的维度相同，因此两者可以相加。**位置编码有多种选择，包括学习编码和固定编码 [9]。（论文中的这段解释了为什么我们需要在词嵌入层中添加位置编码，以及为什么位置编码可以直接同词嵌入相加）

在这项工作中，我们使用了不同频率的正弦和余弦函数：

其中， $p os$ 是位置， $i$ 是维数。也就是说，位置编码的每个维度对应一个正弦波。波长形成一个从 $2\pi$ 到 $10000\cdot 2\pi$ 的几何级数。我们之所以选择这个函数，是因为我们假设它可以让模型轻松地学习到相对位置，因为对于任何固定的偏移 $k$ ， $PE_{pos+k}$ 都可以表示为 $PE_{pos}$ 的线性函数（论文中的这段解释了为什么选择这样的函数去计算位置编码）

我们还尝试用学习到的位置嵌入[9]来代替，结果发现两个版本产生的结果几乎相同（见表 3 (E)行）。我们之所以选择正弦波版本，是因为它可以让模型推断出比训练时遇到的序列长度更长的序列。（论文中的这段解释了为什么选择正弦波版本）

解读

这篇论文中Model Architecture部分主要概括了Transformer模型架构的详细设计，括以下几点：

Transformer采用编码器-解码器架构，包含编码器和解码器两个部分。
编码器包含多个相同的层叠加而成，每个层有两个子层：多头自注意力机制和全连接前馈网络。
解码器也由多个相同的层叠加构成，除了编码器的两个子层外，还在每个层中插入第三个多头自注意力子层来利用编码器输出。
自注意力子层允许Transformer模型学习任意位置之间的依赖关系。
前馈网络对每个位置分别进行相同的全连接操作。
通过残差连接和层标准化来优化信息流。
位置编码被引入来 inject 序列顺序信息。
输入和输出嵌入层被共享使用，并乘以向量维度的平方根。
softmax被用来生成预测的下一个词概率。

总体而言，这部分详细构建了Transformer的编码器-解码器架构，其独特之处在于完全依赖自注意力来学习全局依赖，并有效融入序列信息，从而克服RNN/CNN模型的局限，为更好地并行化和建模长程依赖提供可能。

Why Self-Attention

在本节中，我们将比较自注意层与循环层和卷积层的各个方面，后者通常用于将一个可变长度的符号表示序列 $(x_1,\cdots, x_n)$ 映射到另一个等长序列 $(z_1,\cdots, z_n)$ ，其中 $x_i,z_i\in \R ^{d}$ ，例如典型序列转换编码器或解码器中的隐藏层。我们使用自注意力的动机有三个。

一个是每层的总计算复杂度。另一个是可并行化的计算量，以所需的最小顺序运算次数来衡量。

第三是网络中长距离依赖关系之间的路径长度。学习长程依赖关系是许多序列转换任务的关键挑战。影响学习此类依赖关系能力的一个关键因素是前向和后向信号在网络中必须穿越的路径长度。输入和输出序列中任意位置组合之间的路径越短，学习远距离依赖关系就越容易[12]。因此，我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

如表 1 所示，自注意层连接所有位置的连续操作数不变，而循环层则需要 $O (n)$ 次连续操作。就计算复杂度而言，当序列长度 $n$ 小于表示维度 $d$ 时，自注意层的计算速度要快于循环层，机器翻译中最先进的模型所使用的句子表示，如单词片[38]和字节对[31]表示，通常就是这种情况。为了提高涉及超长序列任务的计算性能，可以限制自注意力只考虑输入序列中以相应输出位置为中心的大小为 $r$ 的邻域。这将把最大路径长度增加到 $O (n / r)$ 。我们计划在今后的工作中进一步研究这种方法。

核宽 $k < n k的单个卷积层无法连接所有输入和输出位置对。在内核连续的情况下，这样做需要堆叠 O ( n / k ) O(n/k) 个卷积层；在空洞卷积的情况下，则需要堆叠 O ( l o g k ( n ) ) O(log_k(n)) 个卷积层[18]，从而增加了网络中任意两个位置之间最长路径的长度。卷积层通常比循环层贵 k k 倍，然而，可分离卷积[6]则大大降低了复杂度，达到 O ( k ⋅ n ⋅ d + n ⋅ d 2 ) O(k\cdot n \cdot d + n \cdot d^2) 。然而，即使在 k = n k=n 的情况下，可分离卷积的复杂度也相当于自注意层和点式前馈层的组合，而我们在模型中采用的正是这种方法。$

作为附带的好处，自注意力可以产生更多可解释的模型。我们从模型中检查了注意力分布，并在附录中介绍和讨论了一些例子。各个注意力头不仅明显学会执行不同的任务，而且许多注意力头似乎还表现出与句子的句法和语义结构有关的行为。

解读
这篇论文中Why Self-Attention部分主要从以下几个方面阐释了自注意力层的优势：

从计算复杂度上比较，自注意力连接任意两个位置只需要恒定复杂度，而RNN需要线性复杂度，效率更高。
从并行度上，自注意力最小的顺序运算量是 $O (1)$ ，RNN是 $O (n)$ ，更易于并行。
从最大路径长度考虑，自注意力的最大路径只有 $O (1)$ ，RNN是 $O (n)$ ，有助学习长程依赖。
卷积层堆叠的最大路径长度也较长，难以学习长距离依赖。
自注意力可以显式地关注不同位置的表示，而RNN和CNN通过复杂的交互进行隐式建模。
通过可视化分析，自注意力可以学习语法和语义信息。
自注意力对句子的符号位置比较敏感，而RNN和CNN更偏向于局部和翻译等变换。

综上，自注意力机制在计算效率、并行化程度和建模远距离依赖方面都优于RNN和CNN，更适合作为序列转录任务的基本组成模块，这是Transformer选择自注意力的原因。

Training

本节将介绍我们模型的训练机制。

5.1 Training Data and Batching

我们在标准的 WMT 2014 英德数据集上进行了训练，该数据集包含约 450 万个句子对。句子使用字节对编码[3]进行编码，其中有大约 37000 个共享的源目标词汇。对于英语-法语，我们使用了规模更大的 WMT 2014 英语-法语数据集，该数据集包含 3600 万个句子，并将标记拆分为 32000 个词块词汇[38]。句子对按近似序列长度分组。每个训练批包含一组句子对，其中包含约 25000 个源词块和 25000 个目标词块。

5.2 Hardware and Schedule

我们在一台配备 8 个英伟达 P100 GPU 的机器上训练模型。对于我们的基础模型，使用本文所述的超参数，每个训练步骤耗时约 0.4 秒。我们总共训练了 100,000 步或 12 个小时的基础模型。对于我们的大型模型（如表 3 底行所述），每步训练时间为 1.0 秒。大型模型的训练时间为 300,000 步（3.5 天）。

5.3 Optimizer

我们使用了Adam优化器[20]， $\beta_1=0.9, \beta_2=0.98$ 和 $\epsilon = 10^{-9}$ 。在训练过程中，我们根据公式改变学习率：

这相当于在第一个warmup_steps训练步数中线性增加学习率，此后学习率按步数的平方反比例递减。我们使用的是 warmup_steps = 4000。

5.4 Regularization

我们在训练中使用三种类型的正则化：

Residual Dropout

我们将dropout [33]应用于每个子层的输出，然后再将其添加到子层输入中并进行归一化处理。此外，我们将dropout应用于编码器和解码器堆叠中的词嵌入层和位置编码层之和。在基础模型中，我们使用 $P_{drop}=0.1$ 的比率。

Label Smoothing

在训练过程中，我们采用了值 $\epsilon_{ls} = 0.1$ 的标签平滑[36]。这降低了困惑度，因为这样做会增加模型的不确定性，但却提高了准确度和 BLEU 得分。

Result

6.1 Machine Translation

在 WMT 2014 英译德翻译任务中，大Transformer模型（表 2 中的Transformer（big））的 BLEU 值比之前报道的最佳模型（包括集合）高出 2.0 以上，达到了 28.4 的新的最先进 BLEU 值。该模型的配置见表 3 底行。在 8 个 P100 GPU 上的训练耗时 3.5 天。即使是我们的基本模型，也超越了之前发布的所有模型和集合，而训练成本只是任何竞争模型的一小部分。

在 WMT 2014 英语到法语的翻译任务中，我们的大模型获得了 41.0 的 BLEU 分数，超过了之前发布的所有单一模型，而训练成本还不到之前最先进模型的 1/4。为英译法而训练的 Transformer（大）模型使用了 $P_{drop}=0.1$ ，而不是 0.3。

对于基本模型，我们使用的是通过平均最近 5 个检查点得到的单一模型，这些检查点以 10 分钟的间隔写入。对于大型模型，我们取最后 20 个检查点的平均值。我们使用波束搜索，波束大小为 4，长度惩罚 $\alpha=0.6$ [38]。这些超参数是在开发集上实验后选择的。我们将推理过程中的最大输出长度设定为输入长度 + 50，但尽可能提前终止推理 [38]。

表 2 总结了我们的结果，并将我们的翻译质量和训练成本与文献中的其他模型架构进行了比较。我们通过将训练时间、使用的 GPU 数量和每个 GPU 的持续单精度浮点运算能力的估计值相乘，估算出训练一个模型所使用的浮点运算次数。

6.2 Model Variations

为了评估 Transformer 不同组件的重要性，我们以不同方式改变了基础模型，测量了开发集 newstest2013 上英译德性能的变化。我们使用了上一节所述的波束搜索，但没有使用检查点平均法。表 3 列出了这些结果。

如 3.2.2 节所述，在表 3 行（A）中，我们改变了注意力头的数量以及注意力键和值的维度，但计算量保持不变。虽然单头注意力比最佳设置差 0.9 BLEU，但注意力头数过多也会导致质量下降。

在表 3 行（B）中，我们发现减小注意力的大小 $d_k$ 会降低模型质量。这表明，确定兼容性并不容易，比点积更复杂的兼容性函数可能更有益处。在第（C）行和第（D）行中，我们进一步观察到，正如我们所预期的那样，模型越大越好，而 dropout 对避免过度拟合很有帮助。在第（E）行中，我们用学习到的位置嵌入[9]替换了正弦位置编码，观察到的结果与基础模型几乎完全相同。

6.3 English Constituency Parsing

为了评估Transformer是否能推广到其他任务，我们进行了英语成分解析实验。这项任务具有特殊的挑战性：输出结果受到强大的结构约束，而且比输入结果要长得多。此外，RNN 序列到序列模型在小数据环境下也无法达到最先进的结果 [37]。

我们在宾夕法尼亚大学树库（Penn Treebank）[25] 中的《华尔街日报》（WSJ）部分（约 4 万个训练句子）上训练了 $d_{model}=1024$ 的 4 层Transformer。我们还在半监督环境下使用更大的高置信度语料库和 BerkleyParser 语料库（约有 177 个句子）[37]对其进行了训练。在仅使用 WSJ 的情况下，我们使用了 16K 个词组的词汇量，而在半监督情况下，我们使用了 32K 个词组的词汇量。

我们仅在第 22 节开发集上进行了少量实验，以选择dropout，注意力和残差（第 5.4 节）、学习率和波束大小，所有其他参数均与英译德基础翻译模型保持一致。在推理过程中，我们将最大输出长度增加到输入长度 + 300。在仅 WSJ 和半监督设置中，我们使用的波束大小均为 21， $\alpha=0.3$ 。

表 4 中的结果表明，尽管缺乏针对特定任务的调整，但我们的模型表现出人意料的好，其结果优于除循环神经网络语法 [8] 以外的所有以前报道过的模型。

与 RNN 序列到序列模型[37]相比，Transformer 的表现优于 BerkeleyParser [29]，即使仅在由 40K 个句子组成的 WSJ 训练集上进行训练也是如此。

解读
这篇论文中的Result部分报告了在机器翻译任务上的实验结果，主要概括如下：

在WMT’14英德翻译任务上，Transformer大模型获得28.4的BLEU得分，超过之前所有单模型和集成模型2个BLEU，刷新了SOTA。
在WMT’14英法翻译任务上，Transformer大模型获得41.0的BLEU得分，也超过了以前所有单模型，训练成本仅为之前SOTA的1/4。
结果表明Transformer的质量更好，训练速度更快，参数利用率更高。
通过修改模型组件分析了各模块的作用。增加解码器注意力头数对性能提升明显。
位置编码的正弦实现和学习实现效果相近。
模型参数量的增加一般能带来效果提升。残差dropout对避免过拟合很有帮助。
Beam Search带来明显的生成质量提升。

总之，Result部分全面报告了Transformer在机器翻译任务取得的显著进步，超过多种先前模型，并分析了各组件的作用，证明了该架构的有效性。

Conclusion

在这项工作中，我们提出了 “Transformer”，这是第一个完全基于注意力的序列转换模型，用多头自我注意力取代了编码器-解码器架构中最常用的循环层。

在翻译任务中，Transformer 的训练速度明显快于基于循环层或卷积层的架构。在 WMT 2014 英译德和 WMT 2014 英译法翻译任务中，我们都达到了新的技术水平。在前一项任务中，我们的最佳模型甚至优于之前报告的所有集合。

我们对基于注意力的模型的未来充满期待，并计划将其应用于其他任务。我们计划将 Transformer 扩展到涉及文本以外的输入和输出模式的问题上，并研究局部的、受限的注意力机制，以有效处理大型输入和输出，如图像、音频和视频。我们的另一个研究目标是减少生成的顺序。

我们用于训练和评估模型的代码可在github上获取。

Transformer源码解读

Transformer

先解读一下**class Transformer(Module)**这个类。

在PyTorch实现的Transformer源码中：

class Transformer(Module):

下面是对__init()__方法的解读：

这段代码是构造Transformer模型的初始化方法。它包含以下几个部分：

调用父类nn.Module的初始化方法，设置可选的device和dtype。
构造编码器(Encoder)。如果自定义了编码器，直接使用自定义的编码器，否则构造默认的编码器:

构造编码器层TransformerEncoderLayer，包含多头注意力和前馈全连接层。
构造编码器规范化层LayerNorm。
使用编码器层和规范化层构造编编码器TransformerEncoder。

构造解码器(Decoder)。与编码器类似，如果自定义了解码器直接使用，否则构造默认的解码器：

构造解码器层TransformerDecoderLayer，包含masked多头注意力、多头注意力和前馈全连接层。
构造解码器规范化层LayerNorm。
使用解码器层和规范化层构造解码器TransformerDecoder。

重置模型参数。
保存模型的一些关键参数，如d_model, nhead等。
设置batch_first表示是否将batch维度放在第一位。

所以这段代码主要工作是构造transformer模型的编码器和解码器，同时提供了使用自定义编码器和解码器的接口。它初始化了transformer模型最核心的组成部分。

下面是对forward()方法的解读：

这段代码实现了Transformer的前向传播逻辑。详细解读如下：

检查输入的src和tgt的批量大小是否一致。
检查src和tgt的特征维度是否等于模型的d_model。
调用编码器(Encoder)，输入src和src_mask，输出记忆(memory)。
调用解码器(Decoder)，输入tgt、记忆memory、tgt_mask等，输出最终结果output。
返回output。

其中:

src：输入序列，如源语言句子。
tgt：目标序列，如目标语言句子。
src_mask：对src的注意力遮挡，可选择的。
tgt_mask：对tgt自注意力的遮挡，可选择的。
memory_mask：对编码器输出的注意力遮挡，可选择的。
src_key_padding_mask：对src的key遮挡，可选的。
tgt_key_padding_mask：对tgt的key遮挡，可选的。
memory_key_padding_mask：对编码器输出的key遮挡，可选的。

mask相关参数用于指定在注意力计算时哪些位置不参与Softmax运算。key_padding_mask用于指定哪些key在注意力计算时被遮蔽。

总之，这段代码实现了Transformer的基本流程，并进行了必要的输入合法性检查。

TransformerEncoderLayer

下面是对**class TransformerEncoderLayer(Module)**这个类的解读：

先来对__init__()方法进行解读：

再来对forward()方法进行解读：

TransformerEncoder

先对__init__()方法进行解读：

再对forward()方法进行解读：

TransformerDecoderLayer

先来对__init()__方法进行解读：

再来对foward()方法进行解读：

下面对self-attention block进行解读：

下面对Encoder-Decoder attention进行解读：

TransformerDecoder

先来对__init__()方法进行解读：

再来对forward()方法进行解读：

以上是本篇博客的主要内容，欢迎点赞+关注~

你可能感兴趣的:(论文,论文阅读)

[0482]基于JAVA的养老服务监控智慧管理系统的设计与实现阿鑫学长【毕设工场】 java 人工智能大数据毕业设计课程设计
毕业设计（论文）开题报告表姓名学院专业班级题目基于JAVA的养老服务监控智慧管理系统的设计与实现指导老师（一）选题的背景和意义选题背景与意义：随着全球社会老龄化的不断加剧，养老服务的信息化、智能化转型已成为必然趋势。我国作为世界上老年人口最多的国家，面临着巨大的养老压力和挑战，如何高效、科学地管理和优化养老服务资源，保障老年群体的生活质量及健康安全，是当前社会亟待解决的重要课题。基于此现实背景，设
使用Deepseek书写一篇综述论文，如何提示？学术乙方小知识经验分享
使用DeepSeek撰写综述论文时，可以通过以下提示和步骤来高效完成任务：明确研究主题与范围在开始撰写之前，首先需要明确研究主题、文献综述的时间跨度、地理范畴和文献类型。这有助于聚焦研究方向，避免偏离主题。制定详细的提示词提示词的设计是高效利用DeepSeek的关键。可以参考以下模板：研究背景与现状：请帮我梳理XXX领域的研究背景与现状，包括国内外的主要研究成果和研究热点。文献筛选与阅读：请帮我筛
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
2025年毕设ssm校园二手交易平台论文+源码锦程学长--毕设程序课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的研究，现有成果多集中于社会综合型平台（如闲鱼、转转）的商业模式分析，或理论层面的共享经济模型探讨，而针对高校场景特殊性（如用户密度高、交易标的额小、社交属性强）的垂直型平台研究存在明显缺口。当前高校内二手交易多依赖社群、论坛等分散渠道，存在信息不对称、交易
vue3+springboot电影院售票选座管理系统 qq_3166678367 spring boot 后端 java
目录本系统(已开发完成)->成品实现截图开发技术本系统支持的技术栈源码获取详细视频演示：文章底部获取博主联系方式！！！！本课题重点核心代码部分展示论文提纲来自指导老师帅的肯定视频演示/源码获取本系统(已开发完成)->成品实现截图开发技术关键技术实现：在Java的开发过程中，可以使用HTML、CSS、JavaScript等前端技术来实现系统的用户界面设计和交互功能。后端可以使用Java语言编写业务逻
DeepSeek + 药物研发：解决药物研发周期长、成本高-降低80%、失败率高-减少40% Debroon 医疗大模型研发 +慢病逆转人工智能深度学习
DeepSeek+药物研发：解决药物研发周期长、成本高-降低80%、失败率高-减少40%论文大纲1.WHY——研究背景与现实问题1.1研究要解决的现实问题与提出背景1.2研究所要解决的问题类别1.3正反例对比关联：和前人的工作有什么关系？3.总结归纳3.1总结收获3.2探索思考4.WHAT——核心发现或论点5.HOW——研究过程、创新与关键数据6.HOWGOOD——理论贡献与实践意义解法拆解1.1
医图论文 CVPR‘24 | 适应医学图像中泛化异常检测的视觉-语言模型小白学视觉医学图像处理论文解读语言模型人工智能计算机视觉医学图像顶会医学图像处理 CVPR 论文解读
论文信息题目：AdaptingVisual-LanguageModelsforGeneralizableAnomalyDetectioninMedicalImages适应医学图像中泛化异常检测的视觉-语言模型作者：ChaoqinHuang，AofanJiang，JinghaoFeng，YaZhang，XinchaoWang，YanfengWang源码：https://github.com/Medi
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
【论文精读】SCINet-基于降采样和交互学习的时序卷积模型打酱油的葫芦娃时序预测算法时序预测 SCINet TCN
《SCINet:TimeSeriesModelingandForecastingwithSampleConvolutionandInteraction》的作者团队来自香港中文大学，发表在NeurIPS2022会议上。动机该论文的出发点是观察到时间序列数据具有独特的属性：即使在将时间序列下采样成两个子序列后，时间关系（例如数据的趋势和季节性成分）也基本上得以保留。这个观察启发了作者去设计一种新型的神
【论文精读】PatchTST-基于分块及通道独立机制的Transformer模型打酱油的葫芦娃时序预测算法时序预测 PatchTST Transformer 预训练微调表征学习
《ATIMESERIESISWORTH64WORDS:LONG-TERMFORECASTINGWITHTRANSFORMERS》的作者团队来自PrincetonUniversity和IBMResearch，发表在ICLR2023会议上。动机Transformer模型因其自注意力机制在处理序列数据方面的优势，在自然语言处理（NLP）、计算机视觉（CV）、语音等多个领域取得了巨大成功。这种机制使得模型
【Hinton论文精读】The Forward-Forward Algorithm: Some Preliminary Investigations-202212 tyhj_sf 论文研读笔记 ML理论系列人工智能深度学习 FF算法
博文导航0引言1论文摘要2反向传播有什么问题呢？3Forward-Forward算法3.1使用逐层优化函数学习多层表示4Forward-Forward算法的实验4.1反向传播baseline4.2FF算法的一个简单的无监督的例子4.3FF算法的一个简单的监督例子4.4使用FF算法来模拟感知中自上而下的效应4.5作为教师使用空间环境的预测4.6CIFAR-10实验5睡眠6FF算法与其他对比性学习技术
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
【Image captioning-RS】论文12 Prior Knowledge-Guided Transformer for Remote Sensing Image Captioning CV视界 Image captioning学习 transformer 深度学习人工智能
1.摘要遥感图像(RSI)字幕生成旨在为遥感图像生成有意义且语法正确的句子描述。然而,相比于自然图像字幕,RSI字幕生成面临着由于RSI特性而产生的额外挑战。第一个挑战源于这些图像中存在大量物体。随着物体数量的增加,确定描述的主要焦点变得越来越困难。此外,RSI中的物体通常外观相似,进一步复杂化了准确描述的生成。为克服这些挑战,我们提出了一种基于先验知识的transformer(PKG-Trans
springboot毕设电脑销售管理系统程序+论文真纯Django毕设程序 spring boot 课程设计后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展和普及，电脑已经成为现代生活和工作中不可或缺的重要工具。电脑销售行业也随之迎来了前所未有的发展机遇，但同时也面临着激烈的市场竞争和不断变化的客户需求。传统的销售管理模式已难以满足当前市场的快速响应和精细化管理要求。因此，开发一套高效、便捷、全面的电脑销售管
OctoTools：一个具有复杂推理可扩展工具的智体框架三谷秋水智能体大模型机器学习人工智能语言模型机器学习
25年2月来自斯坦福大学的论文“OctoTools:AnAgenticFrameworkwithExtensibleToolsforComplexReasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的OctoTools，是一个无需训练、用户友好且易于扩展的
2025年毕设ssm校园二手电瓶车交易网站论文+源码 SSM毕设程序源码JAVA 课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的现有研究，多以综合类商品交易或书籍循环为主，而专门针对电瓶车这类高价值、强监管的校园二手交易研究较少。当前高校内电瓶车交易存在信息不对称、交易流程不规范、车牌管理脱节等问题，缺乏系统化的解决方案。部分高校虽尝试通过论坛或社群进行交易，但存在用户身份难核实、
Python实现自动提取目标文档的大纲（13）写python的鑫哥 Python办公自动化 python 自动提取 Word 文档大纲编号
前言本文是该专栏的第13篇，后面会持续分享Python办公自动化干货知识，记得关注。大纲是一种用于组织和呈现内容结构的工具，它通过层次化的形式展示信息的框架和重点。其通常用于规划、整理和总结文档、报告、演讲、论文或其他任何形式的写作和表达。它可以帮助作者或演讲者清晰地梳理思路，确保内容的逻辑性和连贯性，同时也便于读者或听众快速了解整体结构和重点内容。而本文，笔者也重点来讲述通过Python，如何来
python基于django/flask体育馆管理系统Django-SpringBoot-php-Node.js-flask QQ_511008285 python django flask spring boot php node.js
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
7招教你掌握用DeepSeek辅助论文写作的提示词技巧学境思源AcademicIdeas 学境思源 AI写作 ChatGPT 人工智能
随着人工智能技术的快速发展，大模型（如DeepSeek、ChatGPT等）已经成为论文写作的重要辅助工具。合理运用提示词（Prompt），不仅能极大提高写作效率，还能辅助生成高质量的学术内容。今天的内容将分享如何利用DeepSeek的提示词技巧，助力论文写作。1.明确写作目标，让AI理解你的需求在使用大模型时，清晰的写作目标至关重要。一个好的提示词应当包括：写作主题、内容范围、格式要求、风格倾向等
基于Spring Boot+vue技术的导游系统设计与实现除了菜一无所有！ spring boot vue.js 后端
论文下载【免费】基于SpringBoot+vue技术的导游系统设计与实现资源-CSDN文库摘要本研究背景主要聚焦于当前旅游业信息化、智能化的发展趋势。随着移动互联网的普及和人们出行方式的多样化，导游系统作为旅游服务的重要组成部分，亟需进行技术革新以提升用户体验和服务效率。本研究旨在利用SpringBoot后端框架与Vue前端框架，构建一个功能丰富、交互友好的导游系统。研究内容主要包括系统需求分析、
毕业论文需要进行几次AIGC检测？ kexiaoya2013 人工智能 AIGC 论文阅读论文笔记
每到毕业季，许多同学都会面临论文查重的困扰。尤其是今年Deepseek的爆火，学校对论文AIGC检测也越来越严格。那么，毕业论文AIGC检测究竟需要做几次呢？一、检测次数受哪些因素影响1、学校政策部分高校提供1-2次免费检测机会，有的则要求自己检测合格后才能提交。检测前，务必提前了解所在院校的检测规则。若学校未明确，建议至少自查2次（初稿+定稿）。2、AI率波动如果首次AI率检测结果超过或接近学校
EDAS：投稿经验-word版本-问题解决 weixin_41724971 学习总结 Latex写作经验总结 SCI科研写作方法总结 word
1.字体不对，字体未嵌入问题问题：word转PDF后，总是显示有字体格式不对（忘记截图了）。办法：1.EDAS投稿PDF格式问题-CSDN博客-PDF上修改+IEEE论文检测的字体未嵌入问题TimesNewRoman,Bold,TimesNewRoman,Italicisnotembedded解决方法_打开其他人的word显示文字未嵌入-CSDN博客（必须有会员，说实话我没弄出来。如有需要这俩结合
如何在论文中添加参考文献引用（以Word2016为例）韦_恩 windows日常使用总结 office word
相信很多同学在写论文时候的引用是手动自己加的吧？这样不是不行，就是万一某个引用变了就会导致牵一发动全身的问题，所以利用word中提供给你的方式就可以灵活动态添加引用，因为这个东西并不是天天用，所以很容易忘，今天来总结一下。目录1.自定义编号2.添加引用编号3.调整编号与内容之间的空隙4.在文中添加引用5.引用顺序变更后自动调整6.总结1.自定义编号定义新编号格式。在编号格式中加上文献引用的“[]”
注意力机制+多尺度卷积一只小小的土拨鼠解构前沿：文献精读深度学习 python 人工智能 YOLO 深度学习
多尺度卷积先提供丰富的特征信息，注意力机制再从中筛选出关键信息，这样结合起来，不仅可以进一步提高模型的识别精度和效率，显著提升模型性能，还可以增强模型的可解释性。MPARN:multi-scalepathattentionresidualnetworkforfaultdiagnosisofrotatingmachines方法：论文介绍了一种用于旋转机械故障诊断的多尺度卷积神经网络结构，称为多尺度路
最新计算机专业毕设论文选题大全基于BeautifulSoup的毕业设计详细题目100套优质毕设项目分享(源码+论文)✅ 会写代码的羊毕设选题课程设计 beautifulsoup 毕业设计毕业设计题目毕设题目 python 网络爬虫
文章目录前言最新毕设选题（建议收藏起来）基于BeautifulSoup的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费
论文阅读：Deep Stacked Hierarchical Multi-patch Network for Image Deblurring 行走的歌文献阅读图像处理计算机视觉机器学习深度学习图像去雨图像处理
这是一篇去模糊的文章，后来发现直接套用不合适，无法获取到相应的特征，遂作罢，简单记录一下。2019CVPR：DMPHN这篇文章是2019CVPR的一篇去模糊方向的文章，师兄分享的时候看了一下，后来也发现这个网络结构在很多workshop以及文章中都见过。文章：ArXiv代码：Github在去模糊领域，目前的多尺度和尺度循环模型存在一些问题：1)由粗到细方案中的去卷积/上采样操作导致运行时间昂贵;2
论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
《论分布式系统架构设计及其应用》架构师论文文琪小站系统架构师系统架构设计师软考论文
【摘要】2022年3月，我参与了某金融科技公司“智能风控云平台”项目的研发工作，担任系统架构师职务，负责分布式系统架构设计与核心技术选型。该平台旨在为银行、保险等金融机构提供实时风险评估、反欺诈及数据服务，需支撑每秒十万级并发请求并满足毫秒级响应要求。项目采用微服务架构风格，融合事件驱动、服务网格及分布式数据存储技术，解决了高可用性、弹性扩展及数据一致性等核心问题。本文通过实际案例论证分布式架构设
prompt 工程整理（未完、持续更新） clvsit LLM prompt 人工智能 LLM
工作期间会将阅读的论文、一些个人的理解整理到个人的文档中，久而久之就积累了不少“个人”能够看懂的脉络和提纲，于是近几日准备将这部分略显杂乱的内容重新进行梳理。论文部分以我个人的理解对其做了一些分类，并附上一些简短的理解，若读者对其感兴趣，可通过论文名称进行搜索。后续有时间，会持续更新和补充。提示工程（PromptEngineering）关注提示词开发和优化，帮助用户将大语言模型（LargeLang
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class