等风来~~

初识Transformer之Attention is all you need

文章目录

前言
一、初识ransformer
- 从宏观视角看自注意力机制
- 从微观视角看自注意力机制
- 什么是查询向量、键向量和值向量向量？
- 通过矩阵运算实现自注意力机制
- 使用位置编码表示序列的顺序
- 残差模块
- 解码组件
- 最终的线性变换和Softmax层
- 训练部分总结
二、Attention is all you need 翻译
- 1 简介
- 2 背景
- 3 模型架构
- - 3.1 编码器和解码器堆栈
  - 3.2 Attention
  - - 3.2.1 缩放的点积attention
    - 3.2.2 Multi-Head Attention
    - 3.2.3 Applications of Attention in our Model
  - 3.3 基于位置的前馈网络
  - 3.4 嵌入和Softmax
  - 3.5 位置编码
- 4 为什么选择Self-Attention
- 5 训练
- - 5.1 训练数据和批次
  - 5.2 硬件和时间

前言

本篇是自己开始认识Transformer写的第一篇学习笔记

一、初识ransformer

李宏毅老师讲的transformer非常好，让Attention is all you need 秒懂Transformer

Transformer由论文《Attention is All You Need》提出Transformer 是 Google 团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。Transformer 模型核心是 Self-Attention 机制，不采用RNN顺序结构，使得模型可以并行化训练，而且能够拥有全局信息，CNN的核心模块是conv。

1.transformer在分类上的应用：VIT，An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

把图像分成固定大小的patchs，把patchs看成words送入transformer的encoder，中间没有任何卷积操作，增加一个class token来预测分类类别。

2.transformer在检测上的应用DETR：End-to-End Object Detection with Transformers

先用CNN提取特征，然后把最后特征图的每个点看成word，这样特征图就变成了a sequence words，而检测的输出恰好是a set objects，所以transformer正好适合这个任务。

3.transformer在分割上的应用SETR：Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

用ViT作为的图像的encoder，然后加一个CNN的decoder来完成语义图的预测。
参考：如何看待transformer在CV上的应用

在《Attention is All You Need》中，经过Transformer模块，输入一种语言，输出另一种语言完成机器翻译任务。

Transformer板块是由编码组件、解码组件和它们之间的连接组成。

编码组件部分由一堆编码器（encoder）构成（论文中是将6个编码器叠在一起——数字6没有什么神奇之处，你也可以尝试其他数字）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。

所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成两个子层。

从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈（feed-forward）神经网络中。每个位置的单词对应的前馈神经网络都完全一样。
解码器中也有编码器的自注意力（self-attention）层和前馈（feed-forward）层。除此之外，这两个层之间还有一个注意力层，用来关注输入句子的相关部分（和seq2seq模型的注意力作用相似）。

我们已经了解了模型的主要部分，接下来我们看一下各种向量或张量（译注：张量概念是矢量概念的推广，可以简单理解矢量是一阶张量、矩阵是二阶张量。）是怎样在模型的不同部分中，将输入转化为输出的。
像大部分NLP应用一样，我们首先将每个输入单词通过词嵌入算法转换为词向量。

每个单词都被嵌入为512维的向量，我们用这些简单的方框来表示这些向量。

词嵌入过程只发生在最底层的编码器中。所有的编码器都有一个相同的特点，即它们接收一个向量列表，列表中的每个向量大小为512维。在底层（最开始）编码器中它就是词向量，但是在其他编码器中，它就是下一层编码器的输出（也是一个向量列表）。向量列表大小是我们可以设置的超参数——一般是我们训练集中最长句子的长度。

将输入序列进行词嵌入之后，每个单词都会流经编码器中的两个子层。

接下来我们看看Transformer的一个核心特性，在这里输入序列中每个位置的单词都有自己独特的路径流入编码器。在自注意力层中，这些路径之间存在依赖关系。而前馈（feed-forward）层没有这些依赖关系。因此在前馈（feed-forward）层时可以并行执行各种路径。
然后我们将以一个更短的句子为例，看看编码器的每个子层中发生了什么。

如上述已经提到的，一个编码器接收向量列表作为输入，接着将向量列表中的向量传递到自注意力层进行处理，然后传递到前馈神经网络层中，将输出结果传递到下一个编码器中。

输入序列的每个单词都经过自编码过程。然后，他们各自通过前向传播神经网络——完全相同的网络，而每个向量都分别通过它。

从宏观视角看自注意力机制

例如，下列句子是我们想要翻译的输入句子：
The animal didn’t cross the street because it was too tired

这个“it”在这个句子是指什么呢？它指的是street还是这个animal呢？这对于人类来说是一个简单的问题，但是对于算法则不是。

当模型处理这个单词“it”的时候，自注意力机制会允许“it”与“animal”建立联系。

随着模型处理输入序列的每个单词，自注意力会关注整个输入序列的所有单词，帮助模型对本单词更好地进行编码。如果你熟悉RNN（循环神经网络），回忆一下它是如何维持隐藏层的。RNN会将它已经处理过的前面的所有单词/向量的表示与它正在处理的当前单词/向量结合起来。而自注意力机制会将所有相关单词的理解融入到我们正在处理的单词中。

当我们在编码器#5（栈中最上层编码器）中编码“it”这个单词的时，注意力机制的部分会去关注“The Animal”，将它的表示的一部分编入“it”的编码中。

从微观视角看自注意力机制

首先我们了解一下如何使用向量来计算自注意力，然后来看它是怎样用矩阵来实现。

计算自注意力的第一步就是从每个编码器的输入向量（每个单词的词向量）中生成三个向量。也就是说对于每个单词，我们创造一个查询向量、一个键向量和一个值向量。这三个向量是通过词嵌入与三个权重矩阵后相乘创建的。

可以发现这些新向量在维度上比词嵌入向量更低。他们的维度是64，而词嵌入和编码器的输入/输出向量的维度是512. 但实际上不强求维度更小，这只是一种基于架构上的选择，它可以使多头注意力（multiheaded attention）的大部分计算保持不变。

X1与WQ权重矩阵相乘得到q1, 就是与这个单词相关的查询向量。最终使得输入序列的每个单词的创建一个查询向量、一个键向量和一个值向量。

什么是查询向量、键向量和值向量向量？

它们都是有助于计算和理解注意力机制的抽象概念。请继续阅读下文的内容，你就会知道每个向量在计算注意力机制中到底扮演什么样的角色。

计算自注意力的第二步是计算得分。假设我们在为这个例子中的第一个词“Thinking”计算自注意力向量，我们需要拿输入句子中的每个单词对“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。

这些分数是通过打分单词（所有输入句子的单词）的键向量与“Thinking”的查询向量相点积来计算的。所以如果我们是处理位置最靠前的词的自注意力的话，第一个分数是q1和k1的点积，第二个分数是q1和k2的点积。

第三步和第四步是将分数除以8(8是论文中使用的键向量的维数64的平方根，这会让梯度更稳定。这里也可以使用其它值，8只是默认值)，然后通过softmax传递结果。softmax的作用是使所有单词的分数归一化，得到的分数都是正值且和为1。

这个softmax分数决定了每个单词对编码当下位置（“Thinking”）的贡献。显然，已经在这个位置上的单词将获得最高的softmax分数，但有时关注另一个与当前单词相关的单词也会有帮助。

第五步是将每个值向量乘以softmax分数(这是为了准备之后将它们求和)。这里的直觉是希望关注语义上相关的单词，并弱化不相关的单词(例如，让它们乘以0.001这样的小数)。

第六步是对加权值向量求和（译注：自注意力的另一种解释就是在编码某个单词时，就是将所有单词的表示（值向量）进行加权求和，而权重是通过该词的表示（键向量）与被编码词表示（查询向量）的点积并通过softmax得到。），然后即得到自注意力层在该位置的输出(在我们的例子中是对于第一个单词)。

这样自自注意力的计算就完成了。得到的向量就可以传给前馈神经网络。然而实际中，这些计算是以矩阵形式完成的，以便算得更快。那我们接下来就看看如何用矩阵实现的。

通过矩阵运算实现自注意力机制

第一步是计算查询矩阵、键矩阵和值矩阵。为此，我们将将输入句子的词嵌入装进矩阵X中，将其乘以我们训练的权重矩阵(WQ，WK，WV)。

x矩阵中的每一行对应于输入句子中的一个单词。我们再次看到词嵌入向量 (512，或图中的4个格子)和q/k/v向量(64，或图中的3个格子)的大小差异。

最后，由于我们处理的是矩阵，我们可以将步骤2到步骤6合并为一个公式来计算自注意力层的输出。

自注意力的矩阵运算形式

通过增加一种叫做“多头”注意力（“multi-headed” attention）的机制，论文进一步完善了自注意力层，并在两方面提高了注意力层的性能：

1.它扩展了模型专注于不同位置的能力。在上面的例子中，虽然每个编码都在z1中有或多或少的体现，但是它可能被实际的单词本身所支配。如果我们翻译一个句子，比如“The animal didn’t cross the street because it was too tired”，我们会想知道“it”指的是哪个词，这时模型的“多头”注意机制会起到作用。

2.它给出了注意力层的多个“表示子空间”（representation subspaces）。接下来我们将看到，对于“多头”注意机制，我们有多个查询/键/值权重矩阵集(Transformer使用八个注意力头，因此我们对于每个编码器/解码器有八个矩阵集合)。这些集合中的每一个都是随机初始化的，在训练之后，每个集合都被用来将输入词嵌入(或来自较低编码器/解码器的向量)投影到不同的表示子空间中。

在“多头”注意机制下，我们为每个头保持独立的查询/键/值权重矩阵，从而产生不同的查询/键/值矩阵。和之前一样，我们拿X乘以WQ/WK/WV矩阵来产生查询/键/值矩阵。

如果我们做与上述相同的自注意力计算，只需八次不同的权重矩阵运算，我们就会得到八个不同的Z矩阵。

这给我们带来了一点挑战。前馈层不需要8个矩阵，它只需要一个矩阵(由每一个单词的表示向量组成)。所以我们需要一种方法把这八个矩阵压缩成一个矩阵。那该怎么做？其实可以直接把这些矩阵拼接在一起，然后用一个附加的权重矩阵WO与它们相乘。

这几乎就是多头自注意力的全部。这确实有好多矩阵，我们试着把它们集中在一个图片中，这样可以一眼看清。

既然我们已经摸到了注意力机制的这么多“头”，那么让我们重温之前的例子，看看我们在例句中编码“it”一词时，不同的注意力“头”集中在哪里

当我们编码“it”一词时，一个注意力头集中在“animal”上，而另一个则集中在“tired”上，从某种意义上说，模型对“it”一词的表达在某种程度上是“animal”和“tired”的代表。

然而，如果我们把所有的attention都加到图示里，事情就更难解释了：

使用位置编码表示序列的顺序

到目前为止，我们对模型的描述缺少了一种理解输入单词顺序的方法。

为了解决这个问题，Transformer为每个输入的词嵌入添加了一个向量。这些向量遵循模型学习到的特定模式，这有助于确定每个单词的位置，或序列中不同单词之间的距离。这里的直觉是，将位置向量添加到词嵌入中使得它们在接下来的运算中，能够更好地表达的词与词之间的距离。

为了让模型理解单词的顺序，我们添加了位置编码向量，这些向量的值遵循特定的模式。

如果我们假设词嵌入的维数为4，则实际的位置编码如下：

尺寸为4的迷你词嵌入位置编码实例

这个模式会是什么样子？

在下图中，每一行对应一个词向量的位置编码，所以第一行对应着输入序列的第一个词。每行包含512个值，每个值介于1和-1之间。我们已经对它们进行了颜色编码，所以图案是可见的。

20字(行)的位置编码实例，词嵌入大小为512(列)。你可以看到它从中间分裂成两半。这是因为左半部分的值由一个函数(使用正弦)生成，而右半部分由另一个函数(使用余弦)生成。然后将它们拼在一起而得到每一个位置编码向量。

原始论文里描述了位置编码的公式(第3.5节)。你可以在 get_timing_signal_1d()中看到生成位置编码的代码。这不是唯一可能的位置编码方法。然而，它的优点是能够扩展到未知的序列长度(例如，当我们训练出的模型需要翻译远比训练集里的句子更长的句子时)。

残差模块

在继续进行下去之前，我们需要提到一个编码器架构中的细节：在每个编码器中的每个子层（自注意力、前馈网络）的周围都有一个残差连接，并且都跟随着一个“层-归一化”步骤。

层-归一化步骤：https://arxiv.org/abs/1607.06450
如果我们去可视化这些向量以及这个和自注意力相关联的层-归一化操作，那么看起来就像下面这张图描述一样：

解码器的子层也是这样样的。如果我们想象一个2 层编码-解码结构的transformer，它看起来会像下面这张图一样：

解码组件

既然我们已经谈到了大部分编码器的概念，那么我们基本上也就知道解码器是如何工作的了。但最好还是看看解码器的细节。

编码器通过处理输入序列开启工作。顶端编码器的输出之后会变转化为一个包含向量K（键向量）和V（值向量）的注意力向量集。这些向量将被每个解码器用于自身的“编码-解码注意力层”，而这些层可以帮助解码器关注输入序列哪些位置合适：

在完成编码阶段后，则开始解码阶段。解码阶段的每个步骤都会输出一个输出序列（在这个例子里，是英语翻译的句子）的元素

接下来的步骤重复了这个过程，直到到达一个特殊的终止符号，它表示transformer的解码器已经完成了它的输出。每个步骤的输出在下一个时间步被提供给底端解码器，并且就像编码器之前做的那样，这些解码器会输出它们的解码结果。另外，就像我们对编码器的输入所做的那样，我们会嵌入并添加位置编码给那些解码器，来表示每个单词的位置。

而那些解码器中的自注意力层表现的模式与编码器不同：在解码器中，自注意力层只被允许处理输出序列中更靠前的那些位置。在softmax步骤前，它会把后面的位置给隐去（把它们设为-inf）。

这个“编码-解码注意力层”工作方式基本就像多头自注意力层一样，只不过它是通过在它下面的层来创造查询矩阵，并且从编码器的输出中取得键/值矩阵。

最终的线性变换和Softmax层

解码组件最后会输出一个实数向量。我们如何把浮点数变成一个单词？这便是线性变换层要做的工作，它之后就是Softmax层。

线性变换层是一个简单的全连接神经网络，它可以把解码组件产生的向量投射到一个比它大得多的、被称作对数几率（logits）的向量里。

不妨假设我们的模型从训练集中学习一万个不同的英语单词（我们模型的“输出词表”）。因此对数几率向量为一万个单元格长度的向量——每个单元格对应某一个单词的分数。

接下来的Softmax 层便会把那些分数变成概率（都为正数、上限1.0）。概率最高的单元格被选中，并且它对应的单词被作为这个时间步的输出。

这张图片从底部以解码器组件产生的输出向量开始。之后它会转化出一个输出单词。

训练部分总结

既然我们已经过了一遍完整的transformer的前向传播过程，那我们就可以直观感受一下它的训练过程。

在训练过程中，一个未经训练的模型会通过一个完全一样的前向传播。但因为我们用有标记的训练集来训练它，所以我们可以用它的输出去与真实的输出做比较。

为了把这个流程可视化，不妨假设我们的输出词汇仅仅包含六个单词：“a”, “am”, “i”, “thanks”, “student”以及 “”（end of sentence的缩写形式）。

我们模型的输出词表在我们训练之前的预处理流程中就被设定好。

一旦我们定义了我们的输出词表，我们可以使用一个相同宽度的向量来表示我们词汇表中的每一个单词。这也被认为是一个one-hot 编码。所以，我们可以用下面这个向量来表示单词“am”：

例子：对我们输出词表的one-hot 编码

接下来我们讨论模型的损失函数——这是我们用来在训练过程中优化的标准。通过它可以训练得到一个结果尽量准确的模型。
损失函数
比如说我们正在训练模型，现在是第一步，一个简单的例子——把“merci”翻译为“thanks”。

这意味着我们想要一个表示单词“thanks”概率分布的输出。但是因为这个模型还没被训练好，所以不太可能现在就出现这个结果

因为模型的参数（权重）都被随机的生成，（未经训练的）模型产生的概率分布在每个单元格/单词里都赋予了随机的数值。我们可以用真实的输出来比较它，然后用反向传播算法来略微调整所有模型的权重，生成更接近结果的输出。

你会如何比较两个概率分布呢？我们可以简单地用其中一个减去另一个。更多细节请参考交叉熵和KL散度。
但注意到这是一个过于简化的例子。更现实的情况是处理一个句子。例如，输入“je suis étudiant”并期望输出是“i am a student”。那我们就希望我们的模型能够成功地在这些情况下输出概率分布：

每个概率分布被一个以词表大小（我们的例子里是6，但现实情况通常是3000或10000）为宽度的向量所代表。

第一个概率分布在与“i”关联的单元格有最高的概率

第二个概率分布在与“am”关联的单元格有最高的概率

以此类推，第五个输出的分布表示“”关联的单元格有最高的概率

依据例子训练模型得到的目标概率分布

在一个足够大的数据集上充分训练后，我们希望模型输出的概率分布看起来像这个样子：

我们期望训练过后，模型会输出正确的翻译。当然如果这段话完全来自训练集，它并不是一个很好的评估指标（参考：交叉验证，链接https://www.youtube.com/watch?v=TIgfjmp-4BA）。注意到每个位置（词）都得到了一点概率，即使它不太可能成为那个时间步的输出——这是softmax的一个很有用的性质，它可以帮助模型训练。

因为这个模型一次只产生一个输出，不妨假设这个模型只选择概率最高的单词，并把剩下的词抛弃。这是其中一种方法（叫贪心解码）。另一个完成这个任务的方法是留住概率最靠高的两个单词（例如I和a），那么在下一步里，跑模型两次：其中一次假设第一个位置输出是单词“I”，而另一次假设第一个位置输出是单词“me”，并且无论哪个版本产生更少的误差，都保留概率最高的两个翻译结果。然后我们为第二和第三个位置重复这一步骤。这个方法被称作集束搜索（beam search）。在我们的例子中，集束宽度是2（因为保留了2个集束的结果，如第一和第二个位置），并且最终也返回两个集束的结果（top_beams也是2）。这些都是可以提前设定的参数。

二、Attention is all you need 翻译

摘要：主流序列转导模型基于复杂的循环神经网络或卷积神经网络，这些神经网络包含一个编码器和一个解码器。性能最好的模型还通过attention机制将编码器和解码器连接起来。我们提出一种新的简单的网络架构Transformer，仅基于attention机制并完全避免循环和卷积。对两个机器翻译任务的实验表明，这些模型在质量上更加优越、并行性更好并且需要的训练时间显著减少。我们的模型在WMT 2014英语-德语翻译任务上达到28.4 BLEU，超过现有最佳结果（包括整合模型）2个BLEU。在WMT 2014英语-法语翻译任务中，我们的模型建立了单模型新的最先进的BLEU分数41.8，它在8个GPU上训练了3.5天，这个时间只是目前文献中记载的最好的模型训练成本的一小部分。通过在解析大量训练数据和有限训练数据的两种情况下将其应用到English constituency，我们表明Transformer可以很好地推广到其他任务。

1 简介

在序列建模和转换问题中，如语言建模和机器翻译[35, 2, 5]，循环神经网络特别是长短期记忆[13]和门控循环[7]神经网络，已经被确立为最先进的方法。自那以后，许多努力一直在推动循环语言模型和编码器-解码器架构的界限[38, 24, 15]。
循环模型通常是对输入和输出序列的符号位置进行因子计算。通过在计算期间将位置与步骤对齐，循环模型根据前一步的隐藏状态和输入，产生位置t的隐藏状态序列。这种固有的顺序特性阻碍了样本训练的并行化，这在更长的序列长度上变得至关重要，因为有限的内存会限制样本的批次大小。最近的工作通过巧妙的因子分解[21]和条件计算[32]，在计算效率方面取得重大进展，后者还同时提高了模型性能。然而，顺序计算的基本约束依然存在。
在各种任务中，attention机制已经成为序列建模和转换模型不可或缺的一部分，它可以建模依赖关系而不考虑其在输入或输出序列中的距离[2, 19]。除少数情况外[27]，这种attention机制都与循环网络一起使用。
在这项工作中，我们提出了Transformer，这种模型架构不使用循环网络结构，而是完全依赖于attention机制来表示输入和输出之间的全局依赖关系。Transformer允许进行更多的并行化，并且可以在八个P100 GPU上进行十二小时的训练后达到翻译质量的新的最佳结果。

2 背景

减少序列计算的目标也构成了扩展的神经网络GPU [16]，ByteNet [18]和ConvS2S [9]的基础，它们都使用卷积神经网络作为基本构建模块，并行计算所有输入和输出位置的隐藏表示。在这些模型中，关联任意两个输入或输出位置的信号所需的操作次数会随着位置之间的距离而增加，ConvS2S是线性增加，而ByteNet是对数增加。这使得学习远距离之间的依赖关系变得更加困难[12]。在Transformer中，关联两个输入或输出位置的信号所需的操作次数可以减少到固定的次数，尽管由于用attention权重化的位置取平均降低了效果，但是我们使用Multi-Head Attention抵消了效果降低，具体描述见 3.2。
Self-attention，有时称为intra-attention，是一种attention机制，它关联单个序列的不同位置以计算序列的表示。 Self-attention已成功用于各种任务，包括阅读理解、摘要概括、文本蕴涵和学习与任务无关的句子表征[4，27，28，22]。
端到端的记忆网络基于循环attention机制，而不是序列对齐的循环，并且已被证明在简单语言的问答和语言建模任务中表现良好[34]。
就我们所知，Transformer是第一个完全依靠self-attention来计算输入和输出表示而不使用序列对齐RNN或卷积的转换模型。在后续章节中，我们将描述Transformer，引出self-attention并讨论它相对 [17, 18]和[9]几个模型的优势。

3 模型架构

大部分神经序列转换模型都有一个编码器-解码器结构[5, 2, 35]。编码器把一个输入序列( )映射到一个连续的表示 z = ( )。解码器对z中的每个元素，生成输出序列( )。在每一步中，模型都是自回归的[10]，在生成下一个时，会将先前生成的符号作为附加输入。
Transformer遵循这种整体架构，编码器和解码器都使用self-attention堆叠和point-wise、完全连接的层，分别显示在图1的左边和右边

3.1 编码器和解码器堆栈

编码器：编码器由N = 6 个完全相同的层堆叠组成。每一层都有两个子层。第一层是一个multi-head self-attention机制，第二层是一个简单的、位置全连通的前馈网络。我们对每个子层再采用一个残差连接[11] ，接着进行层标准化[1]。也就是说，每个子层的输出是LayerNorm(x + Sublayer(x))，其中Sublayer(x) 是由子层本身实现的函数。为了便于进行残差连接，模型中的所有子层以及embedding嵌入层产生的输出的维度都为 = 512。
解码器：解码器也是由N = 6 个完全相同的层堆叠组成。除了每个编码器层中的两个子层之外，解码器还有第三个子层，该层对编码器的输出执行multi-head attention。与编码器类似，我们在每个子层再采用残差连接，然后进行层标准化。我们还修改解码器中的self-attention子层，以防止当前位置关注后续位置。这种掩码结合将输出嵌入偏移一个位置，确保对位置 i 的预测只依赖位置小于i 的已知输出。

3.2 Attention

Attention功能可以描述为将query和一组key-value对映射到输出，其中query、key、value和输出都是向量。输出为value的加权和，其中每个value的权重通过query与相应key的兼容函数来计算。

3.2.1 缩放的点积attention

Figure 2左侧为"缩放的点积Attention"。其输入为query、维度为的key、维度为的value。我们计算query和所有key的点积，然后对每个除以
，最后用softmax函数获得value的权重。
在实践中，我们同时计算一组query的attention函数，并将它们组合成一个矩阵Q。 key和value也一起组成矩阵 K 和 V 。我们计算输出矩阵为：

两个最常用的attention函数是加法attention[2]和点积（乘法）attention。除了缩放因子，点积Attention跟我们的算法一样。加法attention使用具有单个隐层的前馈网络计算兼容函数。虽然理论上点积attention和加法attention复杂度相似，但在实践中，点积attention可以使用高度优化的矩阵乘法来实现，因此点积attention计算更快、更节省空间。
当的值比较小的时候，这两个机制的性能相近。当比较大时，加法attention比不带缩放的点积attention性能好[3]。我们怀疑，对于很大的值，点积大幅度增长，将softmax函数推向具有极小梯度的区域。为了抵消这种影响，我们将点积缩小倍。

3.2.2 Multi-Head Attention

我们发现将query、key和value分别进行h次不同的、学到的到、和维的线性映射效果更好，而不是用维的query、key和value执行单个attention函数。基于query、key和value的每个映射，我们并行执行attention函数，产生dv维输出值。将它们连接并再次映射，产生最终值，如图2所示。
Multi-head attention允许模型联合关注不同位置的不同表示子空间的信息。如果只有一个attention head，它的平均值会削弱这个信息。

在这项工作中，我们采用 h = 8 个并行attention层或head。对每个head， = = /h = 64。由于每个head的大小减小，总的计算成本与具有全部维度的单个head attention相似。

3.2.3 Applications of Attention in our Model

Transformer以3种方式使用multi-head attention：

在“编码器—解码器attention”层，query来自前一个解码器层，key和value来自编码器的输出。这样，解码器中的每个位置都能关注到输入序列中的所有位置。这种方式模仿了序列到序列模型中典型的编码器—解码器的attention机制，例如[38, 2, 9]。
编码器包含self-attention层。在self-attention层中，所有的key、value和query来自编码器中前一层的输出。编码器中的每个位置都可以关注编码器上一层的所有位置。
类似地，解码器中的self-attention层允许解码器中的每个位置都关注解码器中直到并包括该位置的所有位置。为了保持解码器的自回归属性，我们需要防止解码器中的向左信息流。通过屏蔽softmax的输入中所有不合法连接的值（设置为-∞），我们在缩放的点积attention中实现了这一目标。见图2。

3.3 基于位置的前馈网络

除了attention子层，编码器和解码器的每层还包含一个全连接前馈网络，该网络分别单独作用于每个位置。该网络包含两个线性转换，中间有一个ReLU激活。

虽然线性变换在不同位置上是相同的，但每层的参数不同。它的另一种描述方式是两个内核大小为1的卷积。输入和输出的维度为 = 512，内层的维度为 = 2048。

3.4 嵌入和Softmax

与其他序列转换模型类似，我们使用学习到的embedding将输入词符和输出词符转换为维的向量。我们还使用学到的线性变换和softmax函数将解码器的输出转换为预测的下一个词符的概率。在我们的模型中，我们在两个embedding层之间和pre-softmax线性变换共享相同的权重矩阵，类似于[30]。在embedding层中，我们将这些权重乘以
。

3.5 位置编码

由于我们的模型不包含循环和卷积，为了让模型利用序列的顺序，我们必须加入一些序列中词符的相对或者绝对位置的信息。为此，我们将“位置编码”添加到编码器和解码器底部的输入embeddinng中。位置编码和embedding的维度相同，也是dmodel，所以这两个向量可以相加。有多种位置编码可以选择，例如通过学习得到的位置编码和固定的位置编码[9]。

在这项工作中，我们使用不同频率的正弦和余弦函数：

其中pos是位置，i 是维度。也就是说，位置编码的每个维度对应于一个正弦曲线。这些波长形成一个从2π 到10000 ⋅ 2π的几何级数。我们选择这个函数是因为我们假设它会让模型很容易学习对相对位置的关注，因为对任意确定的偏移k, 都可以表示为的线性函数。
我们还用学习到的位置embedding[9]进行了试验，发现这两个版本的结果几乎是相同的（参见表 3 行(E)）。我们之所以选择正弦曲线，是因为它可以让模型推断比训练期间遇到的更长的序列。

4 为什么选择Self-Attention

在这一节中，我们将self-attention与循环和卷积层进行比较，后者通常用于将变长的符号序列表示映射到另一个等长的序列，例如一个典型的序列转换编码器或解码器中的隐层。使用self-attention主要是为了解决以下三个问题。
一个是每层的总计算复杂度。另一个是可以并行的计算量，以所需的最少顺序操作数来衡量。
第三个是网络中长距离依赖之间的路径长度。在许多序列转换任务中，学习长距离依赖性是一个主要的挑战。影响学习这种依赖性能力的一个关键因素是前向和后向信号在网络中传播的路径长度。输入和输出序列中任意位置组合之间的这些路径越短，学习远距离依赖性就越容易[12]。因此，我们还比较了由不同类型网络层组成的网络中任意两个输入和输出位置之间的最大路径长度。
如表1所示，self-attention层只需要常量顺序执行的操作就可以将所有位置连接起来，而循环层需要O(n) 顺序操作。在计算复杂度方面，机器翻译中最先进的模型经常遇到序列长度n小于表示的维度d的情况，例如单词[38]表示法和字节对[31]表示法，此时，self-attention层比循环层要快很多。为了提高包含很长序列的任务的计算性能，可以将self-attention限制在以各自输出位置为中心的输入序列中 r 大小的邻域内。这会将最大路径长度增加到O(n/r)。我们计划在今后的工作中进一步研究这种方法。
核宽度为 k < n 的单层卷积不能连接每一对输入和输出的位置对。要这么做，卷积核为邻近核的情况下需要O(n/k)个卷积层，在扩展卷积的情况下需要个层[18]，这增加了网络中任意两个位置之间的最长路径的长度。卷积层通常比循环层更耗费资源，大约为k倍。然而，可分卷积[6]可以把复杂度大幅减少到。然而，即使k = n，一个可分卷积的复杂度等同于self-attention层和point-wise前馈层的组合，即我们的模型采用的方法。
间接的好处是，self-attention可以产生更可解释的模型。我们从我们的模型中研究attention的分布，并在附录中进行展示和讨论。每个attention head不仅清楚地学习了执行不同的任务，许多attention head似乎还能学到与句子的句法和语义结构相关的行为。

5 训练

本节介绍我们的模型训练方法。

5.1 训练数据和批次

我们在标准的WMT 2014英语-德语数据集上进行了训练，其中包含约450万个句子对。这些句子使用字节对编码[3]进行编码，源语句和目标语句共享大约37000个词符的词汇表。对于英语-法语翻译，我们使用大得多的WMT 2014英法数据集，它包含3600万个句子，并将词符分成32000个word-piece词汇表[38]。序列长度相近的句子一起进行批处理。每个训练批次的句子对包含大约25000个源词符和25000个目标词符。

5.2 硬件和时间

我们在一台有8个NVIDIA P100 GPU的机器上训练我们的模型。使用本文描述的超参数的基础模型，每个训练步骤耗时约0.4秒。我们对基础模型进行了总共100000步或12小时的训练。对于我们的大型模型（见表3的底部），步进时间为1.0秒，模型训练了30万步（3.5天）。

你可能感兴趣的:(图像分割目标检测)

机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
yolov8的第一次实验报告算法宇宙 YOLO 人工智能计算机视觉
1.实验概述实验名称:占道经营目标检测模型实验目标:提高模型的精确率（Precision）和召回率（Recall），使其接近1。实验日期:[2025-01-16]2.数据集数据集名称:[datasets]数据集大小:[2.68Gb]数据集描述:[数据集主要分两个类别：zdjy_ld,zdjy_gd]注释：占道经营流动，占道经营固定3.模型配置3.1基础配置·模型类型:YOLOv8·预训练模型:YO
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
Yolov11目标检测(ultralytics) @M_J_Y@ 目标检测 YOLO 目标检测人工智能
Yolov11目标检测（ultralytics）1.克隆仓库2.安装环境依赖3.训练、验证、推理以及onnx模型导出1.克隆仓库从官网下载Yolov11到本地。[email protected]:ultralytics/ultralytics.git2.安装环境依赖pipinstall-e.-ihttps://pypi.mirrors.ustc.edu.cn/simple/3.训练、验证
使用 labelImg 制作YOLO系列目标检测数据集（ 2401_89791028 YOLO 目标检测人工智能
文章转载自K同学，谨防原文失效可参考link1和link2和link3LabelImg介绍LabelImg支持文件夹的导入，在标完一张后，在左侧选择NextImage就可以切换到下一张继续了。输出格式部分，目前LabelImg支持YOLO和PascalVOC2种格式，前者标签文件后缀是.txt件，而后者标签文件后缀是.xml件。标签保存在对应的labels文件夹下，与images中的图片文件名一一
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
Python库 - skimage 司南锤 PYTHON库 python 开发语言
skimage是scikit-image的缩写，是一个用于图像处理的Python库。提供了丰富的图像处理功能，包括图像滤波、边缘检测、形态学操作、特征提取、图像分割等。skimage是基于NumPy数组构建的，因此可以与NumPy和其他科学计算库（如scipy和matplotlib）无缝集成。安装可以使用pip来安装skimage：pipinstallscikit-image主要模块skimage
YOLOv8 改进：添加 GAM 注意力机制鱼弦人工智能时代 YOLO
YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。然而，随着场景的复杂化，仅仅依靠卷积特征可能不足以捕捉图像中的重要信息。引入注意力机制，如GAM（GlobalAttentionMechanism），可以有效提高模型对关键区域的关注，从而提升检测性能。技术背景GAM是一种全局注意力机制，通过全局信息聚合和自适应权重分
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析 AIGC_ZY CV transformer pytorch 深度学习
VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。它摒弃了传统卷积神经网络(CNN)的卷积操作，而是将图像分割成patches，并将这些patches视为序列输入到Transformer编码器中。ViT的处理流程输入图像被分割成多个固定大小的patch，每个patch经过线性投影变成嵌入向量，然后加上位置编码。接着，这些嵌入向量会和类别标签（c
【图像分割】Labelme JSON标注转换为TXT代码详解唐king json python
书接上文：https://blog.csdn.net/qq_49092686/article/details/145114987?spm=1001.2014.3001.5502这里给出更细致的json2txt代码，同时考虑了circle、rectangle这两种情况各位朋友，在使用前，你一定要注意你的json格式是不是跟我的一致，不一致的话是用不了的（是不是也用的labelme制作的数据集）imp
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
YOLO11改进-模块-引入CMUNeXt Block 增强全局信息一勺汤 YOLOv11模型改进系列网络 YOLO 目标检测模块魔改 YOLOv11 YOLOV11模型改进
在医学图像分割领域面临诸多问题，如U形架构卷积网络难以提取全局信息，混合架构因计算资源受限在实际医疗场景应用受阻，轻量化网络在保证性能与提取全局信息上存在矛盾。因此，设计了CMUNeXtBlock，CMUNeXtBlock采用大核深度可分离卷积替代普通卷积来提取全局信息，凭借深度可分离卷积减少参数和计算成本以维持轻量化，同时综合利用卷积归纳偏置和全局信息提取能力，有效解决了这些问题。代码：http
YOLO优化之扫描融合模块（SimVSS Block）清风AI 人工智能计算机视觉 YOLO 目标检测深度学习目标跟踪
研究背景在自动驾驶技术快速发展的背景下，目标检测作为其核心组成部分面临着严峻挑战。驾驶场景中目标尺度和大小的巨大差异，以及视觉特征不显著且易受噪声干扰的问题，对辅助驾驶系统的安全性构成了潜在威胁。传统的卷积神经网络（CNN）虽然在目标检测领域取得了显著进展，但仍存在局限性，如局部关注性导致难以有效检测不同尺度的目标。为克服这些问题，研究人员开始探索将状态空间模型（SSM）引入目标检测领域，以期提高
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Hello YOLOv8从入门到精通》4，模型架构和骨干网络Backbone调优实践 Jagua YOLO
YOLOv8是由Ultralytics开发的最先进的目标检测模型，其模型架构细节包括骨干网络（Backbone）、颈部网络（Neck）和头部网络（Head）三大部分。一、骨干网络（Backbone）Backbone部分负责特征提取，采用了一系列卷积和反卷积层，同时使用了残差连接和瓶颈结构来减小网络的大小并提高性能。YOLOv8的Backbone参考了CSPDarkNet结构，的增强版本，并结合了其
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
OTSU算法（大津算法）天行者@ 算法 opencv 人工智能二值化
Otsu算法（大津算法）是一种经典的图像二值化方法，其核心是通过最大化类间方差自动确定全局阈值。以下是其具体工作原理和步骤：1.基本思想假设图像由前景（目标）和背景两部分组成，且两者的灰度分布存在明显差异（直方图呈现双峰）。Otsu算法通过寻找一个阈值，使得前景与背景之间的类间方差最大，从而将图像分割为二值图。2.数学推导（1）计算灰度直方图统计图像中每个灰度值的像素个数，得到直方图h[i]（i为
目标检测中衡量模型速度和精度的指标：FPS和mAP asdfg1258963 目标检测_ai 目标检测人工智能
“FPS”和“mAP”分别衡量了模型的速度和精度。FPS（FramesPerSecond）定义：FPS是“每秒传输帧数”的缩写，用于衡量计算机视觉系统（如目标检测、图像识别等）的实时性能。它表示系统每秒钟能够处理的图像或视频帧的数量。重要性：在实时应用中，如自动驾驶、视频监控等，FPS是一个关键指标。高FPS意味着系统能够快速处理输入的图像数据，实现实时响应。计算方式：FPS可以通过以下公式计算：
深入理解 OTSU 算法（大津法——最大类间方差法） ZHauLee 机器学习算法计算机视觉人工智能
一、算法概述OTSU算法是一种用于图像分割的自动阈值选择算法，广泛应用于图像处理领域，特别是在二值化过程中。它是由日本学者大津展之（NobuyukiOtsu）在1979年提出，因此得名“OTSU算法”。二、算法原理OTSU算法的核心思想是通过遍历所有可能的阈值，将图像分割为前景（目标）和背景两部分，使得这两部分之间的类内方差（intra-classvariance）最小，或者说使得这两部分之间的类
otsu算法_OTSU(大津法最大类间方差法) weixin_39996742 otsu算法
OTSU基本介绍OTSU是一种确定图像二值化分割阈值的算法，由日本学者大津于1979年提出，被誉为是图像分割中全局阈值选择的最佳方法。OTSU按照图像的灰度特性，将图像分成前景和背景两部分。因为方差可以看成是灰度分布均匀的一种度量，故前景和背景之间的类间方差越大，说明构成图像两部分的差别越大，当部分前景错分为背景或者部分背景被错分为前景时，都会导致两部分的差别变小。使用类间方差最大的分割一位置错分
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
基于分组 NMS 的检测模型后处理改进 Lunar* 目标检测算法与优化目标检测深度学习 python
引言在目标检测任务中，后处理阶段的非极大值抑制（Non-MaximumSuppression,NMS）是至关重要的一环，主要用于去除高度重叠的冗余预测框。然而，在某些场景中，不同类别的目标可能会被网络同时预测为多个相近的类别，例如：交通工具检测场景：同一辆车可能被误检测为“自行车”和“电动车”。动物检测场景：同一只动物可能被误检测为“狼”和“狗”。家电检测场景：同一台设备可能被误检测为“微波炉”和
Stable Diffusion/DALL-E 3图像生成优化策略云端源想 stable diffusion
StableDiffusion的最新版本或社区开发的插件，可以补充这些信息以保持内容的时效性。云端源想1.硬件与部署优化（进阶）显存压缩技术使用--medvram或--lowvram启动参数（StableDiffusionWebUI），通过分层加载模型降低显存占用（适合6GB以下显卡）。分块推理（TiledDiffusion）：将图像分割为512×512区块，逐块生成后无缝拼接，支持4096×40
3.13 YOLO V3 不要不开心了机器学习 pytorch 深度学习
今天的内容为YOLO-V3YOLO系列-YOLO-V3，最大的改进就是网络结构，使其更适合小目标检测。-特征做得更细致，融入多持续特征图信息来预测不同规格物体。-先验框更丰富了，3种scale，每种3个规格，一共9种。-softmax改进，预测多标签任务。-多scale-为了能检测到不同大小的物体，设计了3个scale。-scale变换经典方法-左图：图像金字塔；右图：单一的输入。-scale变换
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri