unseven

【论文】attention is all you need

重点在第三节

attention is all you need
- 摘要
- 1. 绪论
- 2. 背景
- 3. 模型架构
- - 3.1 编码器和解码器堆叠
- 3.2 注意力
- - - 3.2.1 缩放点积注意力（Scaled Dot-Product Attention）
    - 3.2.2 多头注意力机制
    - 3.2.3 模型中注意力的应用
  - 3.3 职位感知前馈网络（Position-wise Feed-Forward Networks）
  - 3.4 嵌入和Softmax(Embeddings and Softmax)
  - 3.5 站位编码（Positional Encoding）
- 4. Why Self-Attention
- 5. 训练
- - 5.1 训练数据与批处理
  - 5.2 Hardware and Schedule
  - 5.3 optimizer
  - 5.4 Regularization
- 6. 结果
- - 6.1 机器翻译
  - 6.2 模型变量
  - 6.3 英语成分句法分析
- 7. 结论
提问
- 1. 顺序计算的基本限制是什么
- 2. 本文的Transformer模型结构是什么
- 3. 残差链接是如何实现的
- 4. 缩放点积注意力是什么，如何实现，有何效果
- 5. 多头注意力相比于缩放点积注意力有什么提升
- 6. Embeddings一词如何理解
- 7. 什么是Transformer

attention is all you need

摘要

主流的序列传导模型基于包含编码器和解码器的复杂循环或卷积神经网络，最佳性能的模型还通过注意机制将编码器和解码器连接。我们提出了一种新的简单网络架构，Transformer，仅基于注意机制，完全放弃循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上优于其他模型，同时更易并行化和需要较少的训练时间。我们的模型在 WMT 2014 英文-德语翻译任务上实现了 28.4 BLEU 的成绩，比现有最佳结果（包括集成）提高了 2 BLEU 以上。在 WMT 2014 英-Fr 翻译任务中，我们的模型在 8 个 GPU 上训练 3.5 天后，创造了新的单模型最佳 BLEU 分数 41.8，仅需最佳模型的一小部分训练成本。我们展示了 Transformer 的泛化能力，通过成功将其应用到英文组成语句分析，无论是使用大量或有限的训练数据。

1. 绪论

递归神经网络、长短时记忆以及门循环神经网络已经被确定为在序列建模和传导问题中，例如语言建模和机器翻译方面的最先进方法。此后，已经有大量的研究工作继续推动递归语言模型和编码器-解码器架构的边界。

现有的模型通常会按输入和输出序列的符号位置来分解计算。将位置与计算时间的步骤对齐，它们生成一个隐状态序列 $h_t$ ，作为上一个隐状态 $h_{t−1}$ 和位置t的输入的函数。这种内在的序列特性排除了在训练例子中的并行化，这在较长的序列长度时变得至关重要，因为内存限制对跨例子批处理造成了影响。最近的研究通过分解技巧和条件计算取得了显著的计算效率提高，同时在后一种情况下也提高了模型性能。然而，顺序计算的基本限制仍然存在。

注意机制已成为各种任务中引人注目的序列建模和转导模型的重要组成部分，在这些模型中，它能够无视输入或输出序列的距离建模依赖关系。然而，在除少数情况外，这种注意机制通常是与循环网络一起使用的。

在本研究中，我们提出了Transformer模型架构，它放弃了循环结构，完全依赖注意力机制来建立输入和输出之间的全局依赖关系。该模型允许更大程度的并行化，只需使用8个P100 GPU进行12小时训练，就能取得高质量的翻译效果，达到了一种新的技术水平。

2. 背景

将顺序计算的减少作为目标也是 Extended Neural GPU 、ByteNet 和 ConvS2S的基础，这些模型都使用卷积神经网络作为基本构建块，用于在所有输入和输出位置上并行计算隐藏表示。在这些模型中，从任意两个输入或输出位置关联信号所需的操作数量随位置间距离增长，对于 ConvS2S 是线性的，对于 ByteNet 是对数的。这使得学习远距离位置之间的依赖关系更加困难。在 Transformer 中，这被减少到一定数量的操作，尽管由于对注意力加权位置的平均影响而导致有效分辨率降低，我们通过第3.2节中描述的 Multi-Head Attention 技术来抵消这种影响。

自我注意力，有时也称为内部注意力，是一种注意机制，涉及单个序列的不同位置，以计算序列的表示。自我注意力已成功地应用于多项任务，包括阅读理解、摘要总结、文本蕴含和学习与任务无关的句子表示。

端到端记忆网络基于循环注意机制而不是序列对齐循环，已被证明在简单语言问答和语言建模任务中表现良好。

据我们所知，Transformer是第一个完全依赖于自注意力来计算其输入和输出表示的跨域模型，而不需要使用序列对齐的递归神经网络或卷积技术。在接下来的章节中，我们将描述Transformer，解释自注意力的实现原理，并讨论其优势。

3. 模型架构

大多数具有竞争力的神经序列转换模型均具备编码器-解码器结构。这里，编码器将符号表示的输入序列（x1, …, xn）映射到一系列连续表示z = (z1, …, zn)。给定z，解码器随后逐个元素生成符号的输出序列（y1, …, ym）。在每个步骤中，模型是自回归的，在生成下一个元素时，会将先前生成的符号消耗作为附加输入。Transformer使用堆叠的自我注意力和点对点全连接层作为编码器和解码器的总体架构，分别表示在Figure 1的左半部分和右半部分。

3.1 编码器和解码器堆叠

编码器：编码器由N = 6个相同的层堆叠而成，每个层包括两个子层。第一个子层是多头自注意力机制，第二个子层是一个简单的位置感知全连接前馈网络。我们采用残差连接来连接这两个子层，接着进行层归一化。也就是说，每个子层的输出都是 LayerNorm(x + Sublayer(x))，其中 Sublayer(x) 是该子层实现的函数。为了方便这些残差连接，模型中的所有子层以及嵌入层的输出维度均为$ d_{model }$= 512。

解码器：解码器还由N = 6个相同层数的堆叠组成。除了每个编码器层中的两个子层外，解码器还插入了一个第三个子层，用于在编码器堆叠的输出上执行多头注意力。与编码器类似，我们在每个子层周围使用残差连接，然后进行层归一化。我们还修改了解码器堆叠中的自我注意子层，以防止参照后续位置。这种屏蔽功能，再加上输出嵌入被一个位置偏移，确保位置i的预测仅依赖于小于i的已知输出位置。

3.2 注意力

注意力机制可被描述为将一个query或一组键值对映射到输出的过程，其中query、keys、 values和output均为向量。输出是值的加权和，其中分配给每个值的权重是由查询与相应键的兼容性函数计算得出的。

3.2.1 缩放点积注意力（Scaled Dot-Product Attention）

我们将特别关注点称为“缩放点积注意力”（图2）。输入由查询和尺寸为 $d_k$ 的键以及尺寸为 $d_v$ 的值组成。我们计算查询与所有键的点积，每个点积除以 $\sqrt{d_k}$ ，并应用softmax函数以获得值的权重。

实际应用中，我们同时计算查询集合的注意力函数，将其打包成矩阵Q。键和值也被打包成矩阵K和V。我们计算输出矩阵如下：
最常用的注意力函数有additive注意力和点积（乘法）注意力[2]。点积注意力与我们的算法相同，唯一不同之处在于缩放因子为 $\cfrac{1}{\sqrt{d_k}}$ 。加性注意力使用单隐藏层的前馈网络计算兼容性函数。虽然两者在理论复杂度上相似，但在实践中，点积注意力更快且更节省空间，因为可以使用高度优化的矩阵乘法代码实现。

虽然对于小值的 $d_k$ ，这两个机制表现相似，但在较大的 $d_k$ 值情况下，加性注意力机制优于不经缩放的点乘注意力机制。我们怀疑当 $d_k$ 越大时，点乘运算结果会变得很大，将softmax函数推向梯度极小的区域；为平衡此影响，我们需要用 $\cfrac{1}{\sqrt{d_k}}$ 对点乘结果进行缩放。

3.2.2 多头注意力机制

与使用 $d_{model}$ 维度的键、值和查询执行单一的注意力函数不同，我们发现将查询、键和值线性投影h次，每次使用不同的可学习线性投影投影到 $d_k$ 、 $d_k$ 和 $d_v$ 维度，有益于提高性能。然后，对这些投影版本的查询、键和值进行并行的注意力函数，产生 $d_v$ 维度的输出值。这些输出值被串联起来，再次进行投影，从而得到最终的值，如图2所示。

多头注意机制允许模型联合关注不同表征空间中的信息，而这些信息位于不同的位置。而单一注意力头则会受到平均值的抑制，从而无法实现上述联合关注。

3.2.3 模型中注意力的应用

Transformer 在三种不同的方式中使用多头注意力。

在“编码器-解码器注意力”层中，查询来自前一个解码器层，而存储键和值则来自编码器的输出。这使得解码器中的每个位置都可以关注输入序列中的所有位置。这类似于序列到序列模型中的典型编码器-解码器注意机。
编码器包含自注意层。在自注意层中，所有的键、值和查询都来自同一位置，即编码器中前一层的输出。编码器中的每个位置都可以关注到编码器前一层中的所有位置。
编码器包含自注意层。在自注意层中，所有的键、值和查询都来自同一位置，即编码器中前一层的输出。编码器中的每个位置都可以关注到编码器前一层中的所有位置。

3.3 职位感知前馈网络（Position-wise Feed-Forward Networks）

除了注意子层外，我们的编码器和解码器中的每个层都包含了一个完全连接的前馈神经网络，它独立且相同地应用于每个位置。它由两个线性变换和一个介于两者之间的ReLU激活函数组成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-803K7wi4-1686468840128)(C:\Users\Administration\AppData\Roaming\Typora\typora-user-images\image-20230609191118461.png)]

尽管不同位置上的线性变换相同，但它们在每个层中使用不同的参数。另一种描述方式是将其视为两个卷积核大小为1的卷积运算。输入和输出的维度为 $d_{model} = 512$ ，而内层的维度为 $d_{ff} = 2048$ 。

3.4 嵌入和Softmax(Embeddings and Softmax)

与其他序列传导模型类似，我们使用学习到的Embeddings将输入标记和输出标记转换为维度为 $d_{model}$ 的向量。我们还使用通常的学习线性变换和softmax函数将解码器输出转换为预测的下一个标记概率。在我们的模型中，我们在两个嵌入层和预softmax线性变换之间共享相同的权重矩阵。在嵌入层中，我们将这些权重乘以 $\sqrt{d_{model}}$ 。

3.5 站位编码（Positional Encoding）

由于我们的模型没有循环和卷积，为了让模型利用序列的顺序，我们必须注入一些关于 Table 1 的相对或绝对位置的信息：不同层类型的最大路径长度、每层复杂度以及最小顺序操作数量。其中，n 是序列长度，d 是表示维度，k 是卷积核大小，r 是限制自注意力中邻域的大小。
为此，我们在编码器和解码器堆栈底部的输入嵌入中添加“位置编码”。位置编码具有与嵌入相同的维度 $d_{model}$ ，这样两者就可以相加。有许多位置编码的选择，包括可以学习和固定的。

在这项工作中，我们使用不同频率的正弦和余弦函数：

其中，pos 表示位置，i 表示维度。也就是说，位置编码的每个维度都与正弦波相对应。波长从 2π 到 10000 · 2π 形成了一种几何级数。我们选择这个函数是因为我们假设这可以让模型轻松学习相对位置的关注，因为对于任何固定的偏移量 k， $PE_{pos+k}$ 可以表示为 $PE_{pos}$ 的线性函数。

我们还尝试使用学习得到的位置编码来替代，同时发现两个版本产生的结果几乎相同（参见表3中(E)行）。我们选择正弦版本，因为它可以让模型在超出训练范围的序列长度上进行外推。

4. Why Self-Attention

在本节中，我们将自我注意力层与常用于映射一个可变长度符号表示序列（x1，…，xn）到另一个相等长度序列（z1，…，zn）的循环和卷积层进行比较，其中xi， $z_i∈R^d$ ，例如典型序列传导编码器或解码器中的隐藏层。为了激励我们使用Self-Attention，我们考虑三个希望实现的目标。

其中一个是每层的总计算复杂度，另一个是可以并行计算的计算量，其测量单位为所需的最小顺序操作数。

第三个问题是网络中远程依赖关系之间的路径长度。学习远程依赖关系是许多序列转换任务中的关键挑战。影响学习此类依赖关系的一个关键因素是前向和后向信号在网络中必须穿越的路径的长度。这些路径在输入和输出序列中的任意位置之间的长度越短，学习远程依赖关系就越容易[12]。因此，我们还比较不同层类型组成的网络中任何两个输入和输出位置之间的最大路径长度。

如表1所示，自注意力层将所有位置连接起来，并执行一定数量的连续操作，而递归层需要O（n）个连续操作。在计算复杂度方面，当序列长度n小于表示维数d时，自注意力层比递归层更快，这在现代机器翻译模型中使用的句子表示中最常见，例如字片段表示[38]和字节对表示[31]。为了提高在涉及非常长的序列的任务中的计算性能，自注意力可以被限制为仅考虑以输出位置为中心的输入序列大小为r的邻域。这将增加最大路径长度到O（n / r）。我们计划在未来的工作中进一步研究这种方法。

具有核宽度 k < n 的单个卷积层无法连接所有输入和输出位置的所有对。在连续卷积的情况下，需要 O(n/k) 层卷积层，而在扩张卷积的情况下，需要 $O(log_k(n))$ 层，这会增加网络中任意两个位置之间最长路径的长度。相较于循环层，卷积层通常更加消耗资源，其消耗率为 k 倍。然而，分离卷积 [6] 可以极大地降低计算复杂度，至$ O(k · n · d + n · d^2)$。即便在 k = n 的情况下，分离卷积的计算复杂度仍然等同于自注意力层和逐点前馈层的结合，这也是我们模型采用的方法。

作为副产品，自我注意力机制能够产生更加易于解释的模型。我们检查了我们模型中的注意力分布，并在附录中提供和讨论了示例。不仅每个注意力头明显学会执行不同的任务，许多头也似乎表现出与句子的句法和语义结构相关的行为。

5. 训练

本节介绍我们模型的训练体系。

5.1 训练数据与批处理

我们使用了标准的WMT 2014年英德数据集，其中包含约450万个句子对。句子是使用字节对编码[3]进行编码的，该编码采用了共享源目标词汇表，包含大约37000个标记。对于英法语言，我们使用了规模显著更大的WMT 2014年英法数据集，其中包含了3600万个句子，并将标记划分为一个32000个词片词汇表[38]。根据近似的序列长度，我们将句子对分批处理。每个训练批次包含一组句子对，大约包含25000个源标记和25000个目标标记。

5.2 Hardware and Schedule

我们使用8个NVIDIA P100 GPU在一台计算机上训练了我们的模型。对于使用本文中所述超参数的基础模型，每个培训步骤约需要0.4秒。我们总共训练基础模型100,000个步骤或12个小时。对于我们的大模型（表3中底行所述），步骤时间为1.0秒。大模型训练了300,000个步骤（3.5天）。

5.3 optimizer

我们采用 Adam 优化器[20]，β1=0.9，β2=0.98，和 ε=10-9。我们根据以下公式随着训练的进行调整学习率：

这意味着在前4000个训练步骤中，将学习率线性增加，之后则以步数的倒数平方根成比例地减少。在本研究中，采用了warmup_steps = 4000。

5.4 Regularization

我们在模型训练中使用了三种正则化方法：

残差失效率我们在每个子层的输出上应用失效率[33]，在它被添加到子层输入并进行标准化之前。此外，我们在编码器和解码器堆栈中的嵌入和位置编码的总和上应用失效率。对于基本模型，我们使用 $P_{drop} = 0.1$ 的速率。

标签平滑:在训练过程中，我们采用了标签平滑技术，其值为$\epsilon_{ls} = 0.1 $。这种技术对困惑度造成了一定影响，因为模型学会了更加不确定，但是它能够提高准确率和BLEU得分。

6. 结果

6.1 机器翻译

在WMT 2014英语到德语的翻译任务中，大型Transformer模型（表2中的Transformer（big））比以前报告的最佳模型（包括集成模型）的BLEU得分高出超过2.0，创造了28.4的新的最先进的BLEU得分。该模型的配置列在表3的底部行中。8个P100 GPU上的训练耗时3.5天。我们的基本模型甚至在训练成本远低于任何竞争模型的情况下就能超越所有以前发布的模型和集成模型。

在WMT 2014英法翻译任务中，我们的大型模型取得了41.0的BLEU分数，胜过所有此前公开发表的单一模型，并且训练成本不到此前最先进模型的四分之一。英-法转换器（大型）模型中使用的dropout率为Pdrop = 0.1，而非0.3。

对于基础模型，我们使用了一个通过平均最后5个时间间隔为10分钟的检查点得出的模型。对于大型模型，我们平均了最后20个检查点。我们采用了Beam Search算法，将beam size设为4，长度惩罚参数alpha为0.6 [38]。这些超参数是在开发集上进行实验后选择的。在推理阶段，我们将最大输出长度设置为输入长度+50，但在可能的情况下提前终止 [38]。

表2总结了我们的结果，并将我们的翻译质量和训练成本与文献中其他模型体系结构进行了比较。我们通过将训练时间、使用的GPU数量以及每个GPU的持续单精度浮点容量的估计乘以来估计训练模型所使用的浮点运算次数。

6.2 模型变量

为评估Transformer中不同组件的重要性，我们通过不同方式改变基础模型，并测量其在英德翻译的新闻测试2013年发展数据上的性能指标变化。我们使用了前文所述的束搜索，并且没有进行检查点平均。我们在表3中呈现了这些结果。

在表3标记（A）中，我们变化了注意头的数量以及注意力键和值的尺寸，同时保持计算量不变，正如3.2.2小节所述。虽然单头注意力比最佳设置差0.9 BLEU，但太多的注意力头也会导致质量的下降。

表3：Transformers架构的变化。未列出的数值与基本模型相同。所有度量指标均基于英语到德语的翻译开发集newstest2013。列出的困惑度是基于我们的字节对编码的每个单词片段，并且不应与每个单词的困惑度进行比较。

表4：Transformer模型在英语短语结构句法分析方面具有良好的推广能力。

在表3的（B）行中，我们观察到降低注意力键大小dk会损害模型质量。这表明确定兼容性并不容易，比点积更复杂的兼容性函数可能会更有益。我们进一步观察到在（C）和（D）行中，较大的模型如预期的那样更好，并且dropout非常有助于避免过拟合。在（E）行中，我们将正弦位置编码替换为学习的位置嵌入[9]，并观察到与基础模型几乎相同的结果。

6.3 英语成分句法分析

为了评估Transformer是否能够推广到其他任务，我们在英语成分分析上进行了实验。这项任务提出了特定的挑战：输出受到强烈的结构约束，并且明显比输入更长。此外，循环神经网络序列到序列模型在小数据范围内无法达到最先进的结果。

我们基于普林斯顿树库中的华尔街日报部分，包含约 4 万个训练句子，训练了一个 4 层 dmodel = 1024 的 transformer 模型。此外，我们还采用了半监督的方法，在较大的高置信度和 BerkleyParser 语料库中，使用了约 1700 万个句子。对于只基于华尔街日报训练句子的模型，我们使用了包含 16K 个标记的词汇表；对于半监督训练模型，我们则使用了包含 32K 个标记的词汇表。

我们仅执行了少量的实验，以在22部分开发集上选择辍学率、注意力和残差（第5.4节）、学习率和beam大小，其他所有参数均保持不变，与英语到德语基础翻译模型一致。在推断期间，我们将最大输出长度增加到输入长度+300。对于仅使用WSJ和半监督设置，我们使用21的beam大小和α = 0.3。

我们在表4中的结果显示，尽管缺乏特定任务的调整，我们的模型表现出令人惊讶的良好表现，在除了递归神经网络语法[8]之外，比所有以前报告的模型更出色。

与RNN序列到序列模型相比，Transformer 甚至在仅基于40000个句子的WSJ训练集进行训练时，也能胜过BerkeleyParser 。

7. 结论

在这项工作中，我们提出了Transformer，这是第一个完全基于注意力机制的序列转换模型，用多头自注意力替换了在编码器-解码器架构中最常用的递归层。

对于翻译任务，相对于基于递归或卷积层的架构，Transformer的训练速度能够显著加快。在WMT2014英德和WMT2014英法翻译任务上，我们均取得了全新的最佳效果。在前一项任务中，我们的最佳模型甚至超过了所有之前报道的集成模型。我们对基于注意力机制的模型的未来发展感到兴奋，并计划将其应用于其他任务。

我们计划将Transformer扩展到涉及文本以外的输入和输出形式的问题，并研究局部、受限的注意力机制，以有效地处理大的输入和输出，例如图像、音频和视频内容。使生成变得不那么顺序化也是我们的另一个研究目标。

我们使用的用于训练和评估模型的代码可在https://github.com/ tensorflow/tensor2tensor上获得。

致谢：我们感谢Nal Kalchbrenner和Stephan Gouws对我们的工作的有益评论、改正和启发。

提问

1. 顺序计算的基本限制是什么

顺序计算的基本限制是无法在训练示例内进行并行化，尤其当序列长度较长时，内存限制会限制跨示例进行批处理。递归模型通常将计算沿着输入和输出序列的符号位置进行分解。将这些位置与计算时间的步骤对齐，它们生成一系列隐藏状态 $h_t$ ，作为前一个隐藏状态 $h_{t−1}$ 和位置t处的输入的函数。这种固有的顺序性质排除了训练示例内的并行化，这在较长的序列长度下尤为关键。注意机制已成为在各种任务中引人注目的序列建模和转换模型的重要组成部分，允许对依赖项进行建模，而不考虑它们在输入或输出序列中的距离。然而，在除了一些情况之外，这些注意机制与递归网络一起使用。

2. 本文的Transformer模型结构是什么

Transformer模型结构是一种基于注意力机制的神经网络，完全摒弃了RNN和卷积网络，因此比传统模型更容易实现并行计算和训练。Transformer模型包含多个编码器和解码器，其中编码器和解码器都包含自注意力机制和编码-解码注意力机制，并通过残差连接相互连接。Transformer模型在机器翻译等任务中表现出色，取得了较高的BLEU分数，并能在短时间内训练出高质量模型，同时泛化能力强，适用于其他任务

3. 残差链接是如何实现的

在Transformer模型中，编码器的残差链接通过在每个子层中添加残差连接和层归一化来实现。具体而言，每个子层的输入是残差连接的输出加上该子层的输入，并进行归一化。然后，在每个子层输出上再应用一个残差连接。这种残差连接的作用在于加快模型的训练。当然，解码器的残差连接同样通过这种方式实现。

4. 缩放点积注意力是什么，如何实现，有何效果

缩放点积注意力是一种用于实现自注意力机制的技术。在Transformer模型中，多头自注意力层的输入包括来自前一层的查询、键和值，将它们输入到缩放点积注意力函数中进行计算。这个函数中的输入会被分成多个向量，称为多头，然后并行地进行计算。最终，对于每个多头，输出被再次连接起来，传递到下一层。这种方法仅使用点积操作，而且通过增加一个缩放因子，可避免点积结果过大。
通过实验证明，缩放点积注意力在自然语言处理任务中具有优秀的效果。在WMT 2014的英德翻译任务上，使用Transformer模型，最高BLEU得分达到了28.4，超越了现有的最佳结果。并且，在WMT 2014的英法翻译任务上，Transformer模型在单机器训练时，达到最佳的BLEU得分，为41.8，训练时间极大地缩短。此外，Transformer模型对于其他任务也具有很好的通用性，比如英文句法分析任务。
总的来说，缩放点积注意力是一种高效并行的自注意力机制，通过它能够学习到全局相关性，在自然语言处理任务中有比较好的应用效果。

5. 多头注意力相比于缩放点积注意力有什么提升

提高了模型的并行性，使得更多的计算可以同时进行，从而提升了训练速度和效率。
可以更好地捕捉到不同发现细节和特征之间的关系，从而提高了模型的表现力和性能。
可以更好地适应不同任务和数据，从而具有更广泛的应用范围和灵活性。多头注意力已经被成功地应用于自然语言处理领域，并被证明是一种有效的注意力机制。

6. Embeddings一词如何理解

嵌入表示是一种将高维度符号化数据转换成低维度向量的方法。这些向量可以被用于机器学习任务，例如分类和聚类。这种表示方法被广泛运用于自然语言处理（NLP）和计算机视觉领域。在NLP中，嵌入表示通常用于单词或短语的表示，目的是使它们更易于用于文本处理任务。计算机视觉领域中，嵌入表示被用于图像和视频的表示，以及人脸识别和物体识别的任务。嵌入表示的学习通常使用神经网络模型和无监督学习方法。

7. 什么是Transformer

Transformer是一种模型架构，它完全排除了RNN和卷积，而是完全依靠自注意力机制建立输入和输出之间的全局依赖关系。相比之下，循环模型会沿着输入和输出序列的符号位置分解计算，这种序列化的特性会限制训练样本内的并行计算，使得在较长的序列长度下，内存限制会限制跨样本进行批处理。自注意力机制已经成为各种任务中引人注目的序列建模和传导模型的重要组成部分，允许对依赖关系进行建模而不考虑它们在输入或输出序列中的距离。在Transformer中，对两个任意的输入或输出位置进行信号相关所需的操作次数是一个常数，因此可以在很大程度上实现并行处理。Transformers可以用非常短的训练时间和最少的硬件资源来达到最新的机器翻译性能表现。

你可能感兴趣的:(论文,深度学习,人工智能,神经网络,注意力机制)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
自动写论文的网站推荐这5款实用类工具小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款实用类工具推荐，特别是千笔-AIPassPaper。1.千笔-AIPassPaper千笔-AIPassPaper是一款功能强大且全面的AI论文写作助手，用户只需输入基本的研究需求和关键词，便能迅速生成一篇完整的论文。该工具利用先进的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
4款毕业论文参考文献格式生成器（附加详细步骤）小猪包333 写论文人工智能深度学习计算机视觉 AI写作
在撰写毕业论文时，参考文献的格式规范是至关重要的。为了帮助学生和学者们更高效地生成符合要求的参考文献格式，本文将详细介绍四款推荐的参考文献格式生成器，并提供详细的使用步骤。1.千笔-AIPassPaper千笔-AIPassPaper是一款先进的AI辅助论文写作工具，不仅能够自动生成大纲、开题报告，还能一键生成参考文献。AI论文，免费大纲，10分钟3万字https://www.aipaperpass
AI论文写作推荐哪个好？分享5款AI论文写作带数据图表网站小猪包333 写论文人工智能深度学习计算机视觉
在当今学术研究和写作领域，AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿，还能进行内容优化、查重和排版等操作。以下是五款推荐的AI论文写作工具，包括千笔-AIPassPaper。千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文写作助手，旨在帮助用户快速生成高质量的论文内容。AI论文，免费大纲，10分钟3万字https:
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
毕业论文附录一般都写什么?大学生写论文是干嘛用的写个原创论文人工智能深度学习 AI写作 chatgpt 论文阅读
毕业论文的附录通常包含一些在正文中不便于展示或详细阐述的内容，但对理解论文整体又具有重要意义的资料。具体来说，附录可能包含以下内容：AI论文，免费大纲，10分钟3万字，查重高于15%退费，支持数据图表！！AIPaperPass-AI论文写作指导平台AIPaperPass是AI原创论文写作平台，免费千字大纲，5分钟生成3万字初稿，提供答辩汇报ppt、开题报告、任务书等，40篇真实中英文知网参考文献，
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
《拖延心理学》（一）你为什么会拖延？|木盒笔记纯se蓝调
《拖延心理学》是帮助你向拖延症宣战的一本书，作者简·博克和莱诺拉·袁是全球知名的拖延症治疗专家。大概每个人或多或少总会有一点拖延症的行为。比如明天要叫论文了，今天你还没有写好，你一边在焦虑症怎么办，一边又拿着手机漫无目的的刷新闻；比如你想了很久准备减肥，但是迟迟又没有行动，想着今天晚上少吃一点吧、明天我就开始运动。今天分析的笔记来告诉你“你为什么会拖延？”，解读人杨坚。有人说拖延就像巨大的泥沼，让
2024年华为杯数学建模研赛C题思路代码+论文助攻 DS数模 2024华为杯数学建模华为 2024华为杯 2024研究生数学建模 2024研赛
2024年华为杯研究生数学建模竞赛（以下简研赛）将于9月21日上午8时正式开始。下文包含：2024研赛思路解析、研赛参赛时间及规则信息说明、好用的数模技巧及如何备战数学建模竞赛C君将会第一时间发布选题建议、所有题目的思路解析、相关代码、参考文献、参考论文等多项资料，帮助大家取得好成绩。2024年研赛将于9月21日上午8时正式开始这里有些资料，大家可以看看：【2024最全国赛研赛数模资料包】C君珍贵
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置