hands_up_down

Attention is all you need:关于transformer中的self-attention

本来我是打算直接上swim transformer的，但是预备知识得有VIT,去学VIT，一个self-attention又给我整懵了。所以，现在回到2017年google团队发表的《Attention is all you need》

https://www.bilibili.com/video/BV1Xp4y1b7ih?from=search&seid=14536050607345172525&spm_id_from=333.337.0.0https://www.bilibili.com/video/BV1Xp4y1b7ih?from=search&seid=14536050607345172525&spm_id_from=333.337.0.0https://www.bilibili.com/video/BV1Xp4y1b7ih?from=search&seid=14536050607345172525&spm_id_from=333.337.0.0之前我不知道该怎么称呼transformer，李老师说self-attention和CNN一样都是一种network，一种网络结构

在一般的分类任务中，输入就是一个固定长度的向量。之前为了实现加了卷积网络的分类网络可以实现多尺度融合训练，还使用了GAP技术。当然，前提是设计网络的时候必须保证多尺度输入最终的输出的通道数必须保持一致

假如现在输入网络的是一组向量，并且向量的维度并不固定，网络应该怎么处理

比如说，对于文本信息而言，每个句子的长短是不一定的，如果将一个句子中的每一个词汇都表示一个向量，每次单词的长度也可能是不一样的，因此这样就会导致向量组的长度、每个向量的维度是变化的

如何将单词向量化呢？

首先建立一个包含所有英文单词的语料库，那么一个单词在这个语料库里面就有一个唯一的序列号，这个序列号使用独热编码来表示。很明显，这个独热编码的维度是很高的，完全没有必要，浪费资源。另外，这种编码没有结构化，反映不出除序列之外的任何信息

这个embedding是真的抽象，单词嵌入？？另外，yolo2似乎坐过类似的将数据进行结构化的尝试

音频和文本信息类似

图网络中每一个节点包含的信息

每一个元素使用独热编码来表示

网络输出的类型：

（1）

这在CV里面从来没有遇到过。比如说NLP里面的词性标注任务。输入几个词，就必须输出几个词性

(2)

NLP里面的情感分析，对一整个句子做一个一维的评价

发言人辨认以及分子式输出都是类似的，像CV任务的输出似乎也是这种

（3）

想具体的机器翻译任务就是典型的模型自行决定输出的label的数量

现在以第一类输出为例，

比如说词性标注，本质上标注每个单词的词性就是一个分类任务，那就一个一个处理

但是，FC依赖于输入的特征，如果输入的特征一样，那么输出是一定不变的。这就意味着他无法处理一词多义的问题。比如，i saw a saw,我看见一把锯子。两个相同的saw输入FC，输出肯定是一样的

改进：

这种方法有效吗？？FC我认为是统一的分类器啊，这样的话就把FC当成了单独的部件，跟SVM一样了

还有一个问题，这个任务究竟要用多少个FC，我倾向于就一个。就一个的话是无法处理上面提到的一词多义的问题的

我基于前面提到的独热编码，有这样一个判断，在这个判断下，网络确实只需要一个FC：

首先，每个单词都是用独热编码表示，每个表示都是唯一的。因为FC是强依赖于输入的特征，所以只要输入的特征一样，那么经过同一个FC的输出必然是相同的。前文提到，向网络中以上下文为单位输入特征。按照上图的方式，每次输入目标单词以及它的前一个和后一个单词，相当于每次向FC输入三个独热编码长度的特征，这也符合FC要求输入层维度不变的要求

但这种方式只是对独热编码的简单叠加，其实计算效率非常低，可以说叠加一次，网络的速度就会慢很多，计算量呈数量级增长

这样一来，按照上图的设计，相当于每个单词的词性，是由三个单词来确定。虽然一个词有多种意思，但不同意思的上下文是不同的，这样就能区分开来

紧随而来的另一个问题就是，我的上下文应该设置多长呢？？假如有一个单词的词性必须通过整个句子才能判断，难道说其他的单词也要跟着如此吗？？这样网络的效率会不会太差...

总结：对于词性标注任务，

stage 1: 只通过目标单词本身的信息来判断词性。无法处理一词多义

stage 2: 通过目标单词的前后两个单词以及它本身来判断词性。上下文究竟该设置多长

到这里，本篇文章的主角self-attention终于现身

首先，self-attention部件吃进整个句子的信息，然后输出和输入的向量个数相等的特征向量，每一个特征向量都包含有self-attention部件处理过后的上下文信息，然后将特征向量送进FC进行分类。

问题就来了，这个包含上下文信息的特征向量的维度是多少呢？？

self-attention部件是可以叠加的：

这个部件的使用其实很像激活函数的使用，输入一个值，输出一个值；self-attention部件属于是输入一组向量，输出一组向量，个数都是相同的。如果是接在输入层后面，处理过后就相当于网络有了新的输入；如果是连接在hidden layer后面，就相当于网络的下一层有了新的输入

基于现在掌握的情况，我做以下猜想：

在前文中，我简单地将独热编码在维度方向上进行叠加，这种方法会呈指数级增加运算量。我们的目的是对FC的输入进行区分，因此可以采用向量相加的方式，独热编码本身是惟一的，相加之后仍然是惟一的。这样一来，无论上下文的长度去多少，FC的输入的维度始终是一定的。

另外，简单的attention机制。实际上，就是为全文信息生成一组权重，这组权重仍然是可以通过神经网络来学习的，权值与相应的独热编码相乘，得到的新向量仍然是惟一的。甚至说还可以做归一化

如何加上卷积网络？如果是直接在输入层后面加入卷积网络，那就使用1*1卷积；也可以对独热编码进行重排，重拍之后的结果一定也是唯一的，然后再进行卷积处理。这样一来，其实自由度就很高了。而卷积网络内部，又可以设置通道注意力和空间注意力部件

self-attention部件的内部结构：

前文提到，self-attention部件吃进全部的信息。首先，他要确定其他输入向量和当前向量的关联程度，这个程度使用α来表示，实际上这就是权重。可以这样讲，两个向量的关联程度....

方法一：点积法。那么这两个矩阵是可以进行迭代，可以进行学习的吗？？向量的点积与它们夹角的余弦成正比，如果是单位向量，可以反映两个向量的相似性。内积为0，两向量垂直。从更高维度出发，内积可以引出希尔伯特空间和傅里叶变换

假设q为给定权重向量，k为特征向量，则q*k其实为一种线性组合，函数F（q*k）则可以构建一个基于q*k+c = 0 （c为偏移）的某一超平面的线性分类器

方法二：使用了激活，还是那个问题，这是可学习的吗？？

常用的方法是法一，dot-product点积法

矩阵q是一个可以重复使用的值，给他一个名称query, 好像是之前李沐讲的什么随意线索。用来搜索一系列的relevant content，α。

这张图就说明了self-attention部件里面这个dot-product是如何进行的。α反映的是两个向量之间相关的程度，在注意力机制之下，又叫做注意力得分，attention score

在实际的运算中，还需要计算自己跟自己的关联性，在这里的计算中并不只是单纯的进行点积计算，在点积之前，两个向量分别要做矩阵运算

矩阵运算的含义可以从很多角度来解释，如果是从坐标变换的角度出发，矩阵可以看做是对运动的描述，那么矩阵乘法有三个维度上的作用，缩放、旋转、平移，因此，当你对同一个向量变换了坐标系之后，他们之间的相关性肯定会发生变化

在做softmax之前需要对α1,1进行缩放，，其中dk表示向量q,k,v的维度

之后对输出的attention score做softmax处理，仍然是那种输入多少个，就输出多少个的计算

这里的选择其实是开放的，其实仅仅做一个归一化也是可以的，做relu都行，主要目的是加入一些非线性因素

可以看到，计算完attention score之后，再一次对输入的向量做了矩阵运算，得到了v。我严重怀疑，q,k,v全部都是向量。这种设计思路就很明显，必须对向量做变换，就是不使用原向量作为FC的输入。这从某种意义上，是不是也在提取特征呢？？

很有可能V的维度和原向量是一致的

将权重，也就是attention score乘到V向量上去

bingo,我的猜想没有错，最后果然是加起来

在具体实现中，每个输入向量经过self-attention模块处理后的向量是一次性计算的，不是通过循环依次计算，因为某些值在计算中是共享的，或者说是重复使用的

首先，对于每一个输入的特征向量，共享w_q,w_k,w_v,进而可以计算出各自对应的q_i,k_i,v_i. 就是说在self-attention部件中做计算时，每个特征向量计算出的q,k,v都是固定的

如何进行统一计算？？

（1）得到每个特征向量对应的q_i,k_i,v_i

（2）计算属于每个特征向量的多个attention score

到这里，我已经十分确信q_i,k_i,v_i就是向量，两个向量做点积运算。所谓横*竖才能得到一个数，把k_i叠起来

妙啊！！！！！！

最后再做一下softmax,加一些非线性因素进去

最终的输出就是从b1--b4.总结下来就是

救赎之道，就在其中啊！！

前面讲到点积法的时候，我就有疑问，并且猜想w_q,w_k,w_v是可以进行学习的，w矩阵的每个元素都要参与到运算中，反向传播当然也适用于它

进阶版的self-attention模块：multi-head self-attention

这个地方的head怎么理解，我猜是和之前在yolo中提到的分类头，定位头差不多的，估计和级联cascade也是有类似意思的

上图就是一种2-heads self-attention

多头self-attention实际上就是配备了多组矩阵Wq,Wk,Wv，从而计算出多组向量q,k,v

但还有一种操作，将向量q,k,v都分成head个等长的新向量。这种多头机制肯定比上一种节省计算资源

将这两个向量叠起来再做一次坐标系变化，缩放、旋转、平移。这是将多头的结果concat到一起，再做一次映射，融合成最终的结果

可以这样理解，相关性有很多种，因此我们在计算attention score的时候，根据情况，看需要计算多少种相关性。每一个query都要和k去做计算

在翻译或者说语音这样的任务中，multi-head就是非常有必要的

另外，self-attention部件并不能感知到输入的特征向量的顺序，但是对于带有时序的信息来说，位置信息又是十分重要的

如何让self-attention部件可以感知到位置信息呢？？

我猜这个位置信息是不是也是用的one hot coding,独热编码

位置信息需要提前加到相应的特征向量上面去。在位置信息e_i的具体取值上，有许多种方法。这里没有办法直接使用独热编码，因为在默认情况下，位置编码的维度应该和输入向量的个数一样，这显然和特征向量的维度不一样。当然，可以直接对位置编码进行升维，这没有什么影响

我看人家用了很多复杂的方法来生成这个位置编码，同时位置编码也是可学习的

self-attention机制也可以用在语音领域

语音的切分通常是10ms一个划分,1s的内容就是100个向量，这个输入的规模是非常庞大的

缩减的，删节的self-attention

self-attention这个部件在处理词性标注问题中的一词多义时，就是要考虑整句话的信息；但是到了语音任务上，因为输入的特征向量的数量过于巨大，有不得不主动选择忽略某些信息

这个地方去三个通道的一个像素值组成一个维度为3的向量，这种方式跟以往很不同。通常一个通道上的特征是有空间信息的，以像素为单位分割通道特征，会不会丢失空间信息呢？？

看起来不太像通道注意力机制

我前面还在批判以像素为单位进行信息提取，这后面就在说CNN可能是一种简化版的self-attention机制。比如说，以一个通道的特征为例，虽然说卷积最终也是提取一个通道上的所有信息，filter的感受野也会有那么大的范围，但是一次卷积操作，或者说feature map上的一个值始终是由filter大小的信息计算出来的，虽然我们设置了stride机制，会让滤波器对整个通道的特征信息进行提取

另外一方面，之前在计算感受野的时候我们就已经说过了，为了简化网络的参数量，始终有一个减少filter维度的倾向，就是用多个小的滤波器替代大的滤波器，通过前面的描述，小的滤波器意味着什么，我想就不需要过多赘述了

通过前文对self-attention部件计算过程的描述，我们已经知道self-attention部件会吃进全部的信息，并且每一个输入的特征向量都会综合全部的信息从而得到一个新的对应的向量

这篇论文从数学的角度论证self-attention和CNN之间的关系，CNN就是前者的一个特例

从这篇论文统计的结果来看，self-attention模块的参数量比较大，至少是大于CNN的，两者相比较有这样一种现象：随着数据量的增大，原本优于self-attention的CNN逐渐被self-attention超过

如果以后要做模型性能的消融实验，跑多个模型就成了必要的措施。这确实挺费时间的。

说道imagenet任务，alexnet好像是降到了15，之后resnet降到了5，最后是加入了attention mechanism的SENet将错误率降到了3以下

之前看RNN一直没太看懂，这里就简述了RNN的原理。首先RNN网络是用于处理带有时序的数据，。和上面说过的词性标注任务类似，它的输入是一串特征向量，然后有一个Memory模块，这个模块也会产生向量。之后将memory产生的向量和输入的第一个特征向量全部喂进RNN网络，最后输出一个向量

输出的这个向量有两个用处，一是送进FC进行处理，二是和第二个输入的特征向量一起送进RNN网络进行处理去生成下一个输出向量。以此类推，其实这种结构看起来就是简化版的self-attention

RNN的缺陷：memory模块的核心其实和self-attention是一样的，就是尽可能将上下文的信息都融合进相关的输入特征向量中，对每一个输入都做全局信息处理。但是，RNN的组织方式就导致两个问题：（1）memory模块需要单独存储处理过后的数据，非常耗费内存（2）memory模块的输出是有时序的，这就导致无法进行并行计算

如果有一种网络的组织方式可以达到同样的效果同时又可以进行并行计算，而且还不耗费额外的内存，那么self-attention就是一种升级版本

self-attention在图结构上的应用。右边这个attention matrix是对称的。在self-attention模块中很重要的一环是计算attention score，这个分数反映的是两个向量的相关程度。那么在图里边就需要计算两个点的相关程度，既然图里边两个结点之间有边，那就可以直接计算有边相连的两个点

但说实话self-attention模块用在图上有什么作用呢？？

GNN-graph neural network

前面在讲解self-attention计算过程的时候已经说了，光是attention matrix的计算，它的时间复杂度就已经是O((输入的特征向量的数量*输入的特征向量的维度)^2),这个计算量是非常巨大的。因此，之后的很多工作都是在保证原有精度下，尽可能提升self-attention的运算速度

transformer：一般讲到transformer就是在将self-attention这个模块

transformer就是一个seqtoseq的model

按照定义，speech translation = speech recognition + machine translation

但是为什么需要单独去发展speech translation的model呢？？上述叠加的这种方式的前提是等式右边的两个model都能得到成功的训练。可现实情况是，很多语言是没有文字的

这个是将seqtoseq应用于文法分析的领域，之前搞过一个抓取错误输入的程序，我们采用的就是一种纯粹硬编码的方式，但这种方式是非常低效的。更为全面且逻辑的方式，应该是建立一颗语法树，语法树就包含了我们对输入做出的所有规定。然后将新的输入送进语法树中进行处理，其实就是遍历语法树，看在哪个节点发生错误，输出相关的错误信息。但是生成语法树的方式我没太看懂

这是2014年由谷歌提出的一个想法，将文法当做另外一种语言，然后直接套用当时最好的机器翻译模型，原作者说甚至连adam优化都没有做，就直接跑出了the state of art的结果。那这个东西的标注该怎么做呢？？文法的标注

多类别标签分类任务。这个用CNN怎么做，可以思考以下。类似于top5那种，显然不是啊。这需要做多类别标注

它的输入输出模型是一对多，根据前面的描述，这种形式就是可以使用seqtoseq

在视觉任务中，你会发现很多都是一对多的形式，这就意味着全部都潜在地可以使用seqtoseq来硬解。比如说目标检测，样本中具体有多少个目标我们是不清楚的，但我们对输出的设计决定了我们的模型最多可以预测多少个目标。比如说yolo1,最多可以预测49个目标，我们规定了上限，在上限范围内，模型根据设计好的参数自行判断需要输出多少个检测框

这是seqtoseq最早的模型架构

what is Encoder??

输入一串向量，输出一串向量.

每一个block的内部结构如下：

先进行self-attention处理，再对每一个向量做FC。那这种操作可以并行吗？？似乎是不可以的

上述结构还可以进行残差化：

self-attention的结果再加上原向量

对a+b做layer normalization

区别于batch normalization, 这里是对向量求均值和标准差。无论是哪一种，normalization都是差不多的，只是用于计算的数据不同。像BN层，他是在FC里面使用，是对同一个神经元的batch个输出做BN操作

同样的操作在FC结构上再做一次：

对FC的输出残差化，残差化之后的结果再做一次layer normalization

这张图就是encoder部件的精细结构。positional encoding就是前文讲过的除了要从整体上考量各个输入的特征向量之间的相关性之外，还需要考虑各向量位置对相关性的影响。PE处理就是先对输入的特征向量加入距离因素。另外self-attention部件全部使用的是多头结构，这个计算量很大

总结一下：Encoder内部是多个结构一样的block结构。输入是多个特征向量，特征向量要先经过PE(position embedding，就是对输入的每一个序列向量加上对应的位置信息，位置信息也是等维的向量，本质上就是向量相加)处理，然后再送入多个block进行处理。block的结构就是两个残差化和layer normalization化的self-attention部件和FC部件。之前就有个定义，transformer就是一个seqtoseq的网络

从我的角度来讲，在encoder部件后面再加上一个FC，设计好输出层的结构，这就是一个完整的网络结构了。参考yolo1的结构，这个网络可以用于分类和目标检测。那么，encoder就是用于提取transformer特征的网络，可以作为backbone

QUESTIONMARK:

（1）残差和layer normalization的位置可以换吗？？

上右图就是做了更换的结构图。测试的结果是右图的结构效果更好

（2）可以使用batch normalization吗？？

效果会更差

what is decoder??

autoregressive??自回归模型。是统计上一种处理时间序列的方法，用同一变数例如x的之前各期，亦即x1至xt-1来预测本期xt的表现，并假设它们为一线性关系。因为这是从回归分析中的线性回归发展而来，只是不用x预测y，而是用x预测 x（自己）；所以叫做自回归。

这里以语音识别任务为例：

根据前文，我知道是将语音以10ms为单位进行切分，每10ms的语音数据作为一个特征向量，但是，不清楚这种特征向量的维度是多少

decoder的启动需要一个special token。我猜可能就是一个变量。等到encoder完成之后，就将这个变量置为1.decoder读取这个变量

输出的是解码出的每个字的独热编码，这个和之前词性标注任务的输入特征的表示方法一样。词性标注任务的输入就是每个单词的独热编码，其维度由语料库的大小决定

decoder的处理流程：

（1）由encoder的输出和special token作为decoder的第一个输入，从而得到输出的第一个向量

（2）再将encoder的输出、special token和decoder输出的第一个向量作为decoder的第二个输入，从而得到输出的第二个向量

（3）重复以上过程。按照我现在的理解decoder的输入会越来越多,这样怎么组织程序呢？

decoder的这种设计跟RNN有点像，但还是有很大差别。RNN用于处理带有时序的样本，所以在向网络输入特征向量的时候是按次序输入的.decoder有些不同，他有几部分输入，encoder的输出是一次性喂进decoder，但是decoder一次只输出一个向量，输出的向量是带有时序的，每输出一个向量，都会将其当做decoder的输入之一

这种将最终的部分输出当做输入的做法带来的一个问题是，如果输出有误，那之后所有的输出都是基于这个错误得出的，可能就是错上加错

另外，我们设计网络的时候没有限制输出的长度，也就是说上述的结构理论上可以一直写下去。我们的期待是他可以自己学会where to stop.这种感觉有点像词语接龙

decoder的精细结构：

这里使用了改版的self-attention模块，masked self-attention

mask在DL中很常见，可以翻译为掩膜，就是说模型中会有遮住某些信息的这种机制

其实masked这种改动，是基于时序这个现实要求。如果设计的网络要求的输入特征是按照顺序依次输入，而self-attention模块是要求一次性输入全部特征向量，显然两者之间无法匹配

因此masked self-attention修改了原版的计算公式，就是说masked self-attention的输出的向量是基于当前的全局信息。重点变成了当前

前文不是说了吗，我们希望model自己学会where to stop,所以我们增加了输出向量的独热编码的维度，用来表示stop token，当stop token的概率最高的时候，那么decoder的工作就结束了

改造之后的网络结构：

总结：我之前有个误解，认为为了程序的统一性decoder每计算一个输出向量都只需要两个输入，一个是encoder的输出，一个是上一轮decoder的输出。这是我猜的，现在大概弄明白了。decoder的输入是基于当前的全局信息，这个信息经过预处理之后，要送进masked self-attention部件进行第一次处理

前文介绍的就是autoregressive模型

NAT，non autoregressive策略，吃进一串begin以及encoder的输出，直接输出结果。一个begin对应一个输出向量。但很明显的问题，NAT Decoder怎么确定输出的长度呢？？

法一：用专门的分类器预测输出的长度。这个分类器以encoder的输出为输入

法二：人为设定一个输出长度，并且采用AT的一个做法，增加输出向量的一个维度表示end token。对于输出结果，忽略end token以及之后的向量

NAT Decoder的优势：快。从计算上来讲，他从一开始就用一系列的begin来充当全局信息，这样就可以一次性计算出结果。而AT Decoder的结构决定了他要按顺序进行运算

另外，可以更为容易地确定输出向量的数量

不过这样一来NAT Decoder是否就不需要使用masked self-attention了？？？

我们看到前文中提到了RNN，包括LSTM在内，他们为了体现数据中的时序关系，均采用了按顺序计算的模式，这种模式的缺陷之一就是慢。AT Decoder采用了这种模式，虽然在encoder中有self-attention部件，但他的这种改造做的并不彻底。因此，到了NAT Decoder，对模型进行了更为彻底的self-attention化增强

快的没他准？？准的没他快？？

这里提到原因可能是多模态造成的，multi-modality

什么是多模态机器学习？_计算机视觉life-CSDN博客_多模态

这篇文章做了一些简要的介绍

每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。形式可以被称作模态是比较符合直觉，语音是模态，视频是模态，图像是模态。但是还能说触觉、红外、雷达也是模态吗？？

那根据这一点，看图说话这种项目就算是一个multi-modality的项目

同时，模态也可以有非常广泛的定义，比如我们可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。那么机器翻译就是一个多模态任务

因此，多模态机器学习，英文全称 MultiModal Machine Learning (MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习

这里提到全称，多源模态信息，这种说法感觉冗余太多，前面的定义里面，模态应该就包含了信息，这里后面有加了一个信息

encoder 和 decoder之间是如何传递信息的？？？

这张结构图里面用的还是AT结构，仍然在使用masked self-attention部件

这个结构跟上面的不同，按照上面的结构图，encoder 的输入应该是在decoder处理的最开始充当其中一个输入

所以说，如果遵循这张结构图，那么encoder的输出应该参与到decoder的每一次运算。其实我觉得这也是更符合直觉。那么我前面画的粗粒度结构图，就差了encoder部件的输出充当输入这一环。encoder部件可以类比于提取卷积特征的卷积网络，提取出来的卷积特征应当被充分使用才对，不应该只用一次。右边这种跨层的箭头是残差化处理，除此之外，还要做layer normalization

decoder中间位置的这个self-attention部件有三个输入，encoder提供其中两个，masked self-attention提供一个

并不是说encoder提供两个输入，前文已经说过，encoder会输出一定数量的向量，是将输出的这所有的向量都用来充当self-attention的部分输入，而decoder的masked self-attention部件会提供另一部分的输入，最开始mask self-attention只能提供一个输出，之后逐一递增。

这样一来，我就再总结一次数据的流转情况：masked self-attention部件的输入只有begin, 以及每一次decoder部件输出的那些向量，encoder部件的输出是不经过madked sle-attentionbujian 的。encoder 部件的输出知识输入到decoder部件中间的self-attention 部件。

这个计算的形式可以说已经是非常的熟悉了，就是之前self-attentionbujia的计算公式。只是说这个self-attention部件的输入的来源分成了两个部分，如下图

就因为self-attention部件的输入的来源来自不同的地方，因此这种类型的self-attention就叫做cross attention

这里有令人迷惑了，为什么这个begin不参与运算了？？？难道说对于masked self-attention部件的输出的使用只是用对应轮次的向量？？？前面我们已经知道，self-attention部件是有多少输入就有多少输出，并且所有的输出是一次性计算完成。这里有点反直觉的原因在于，可能潜意识里面认为计算出多少向量，就必须使用多少

另外，masked self-attention部件的输出的特点在于，当一个向量已经被计算，后续计算中同一位置的向量是不变的。这从计算方法上可以看出，这可能就意味着masked self-attention部件在实际的程序安排中可能会有优化，将重复性的计算去除

这是一张在更大尺度上的transformer结构图。可以看到transformer的输入要经过多次encoder，然后将最后一个encoder的输出充当每一个decoder的部分输入，也就是decoder中的self-attention部件需要encoder的输出。decoder也有很多个

从这个更大尺度的结构图，我们可以一直向下做细分结构的拆分。编码部分加上解码部分，其实主干全部都是使用的self-attention，而self-attention在数学上和卷积运算是等价的。是不是从某种意义上，transformer是一种全卷积网络呢？？

前面又对此做过说明，卷积其实是一种简化版的transformer，transformer相对卷积会考虑全局信息，而后者只是在各自的感受野范围内去提取高维度、抽象的信息。是否可以这么讲，transformer的数学结构其实更美

卷积运算的规模之前测算过，前面也提到了self-attention部件的时间复杂度。不管是encoder还是decoder，里面的核心部件就是self-attention,因此在预估运算规模上，我认为也是基于self-attention部件。它的时间复杂度是O((输入的特征向量的数量*输入的特征向量的维度)^2)

对于以何种方式来利用各层encoder的输出，这还是一个值得研究的处女地。可以参考FC，可以参考线性回归，可以用多层赋权重结构

how to train transformer??

每个输出向量其实就是某个字的one hot coding,独热编码。把这样一个向量放到FC网络里面不就是一个分类问题吗。怎么计算其中的误差，标注对于每个字也是独热编码，这种形式其实我们也见得很多了，这种形式很适合使用交叉熵，cross entropy

AT方案下的decoder是没有直接限制decoder的输出向量的个数，很明显，在训练早期，很可能会遇到decoder输出向量的个数是会多于标注中向量的个数。我的想法是，计算误差的时候，直截取decoder中的前面部分，长度于标注中向量的个数一致

这里有个问题我没有注意到。他提到，在训练transformer的时候，decoder的输入应该是使用标注

我现在的判断是这种做法可以加速模型的训练。我可以先假设，训练阶段和预测阶段一样，decoder的输入应该是自己输出的向量

前面我们提过预测阶段decoder将自己的输出作为输入的方式会造成严重的错误累积。这个问题在前文中没有得到解答，不知道这种so called teacher foring是不是在训练阶段就可以改善这种情况

并且采用teacher foring这种方法还解决了AT方案下decoder不限制输出向量个数的问题，因为标注中向量的个数是一定的，那么训练阶段decoder输出的向量个数就定下来了

QUESTIONMARK：这里存在一个mismatch,训练和推理阶段decoder采取了两种类型的输入，这种方案会导致什么问题？？

Training Tips:

（一）copy mechanism

对于一些专有名词，比如说术语，名字等

比如说在聊天机器人当中，就是如此。我们希望机器人可以学到当碰到名字，他不要去做什么翻译了，直接copy就好

摘要机器人。数据的是在百万级别

左右图是两种求误差的方式，右图这种方式没有见过。他说是计算两个句子相似程度的分数，BLEU score.但是，又提到使用这种方式来收敛的话，loss function是没有办法做微分的？？？

都不提loss function的形式的吗？？

现在来处理前文中提到的mismatch的问题，exposure bias, 曝光偏差

有一种很直觉但被证明有效的方法，既然担心训练的时候decoder的输入全是正确的结果，而到了推理阶段，一旦模型遇到错误的输入就可能产生很离谱的结果，所以说在训练阶段就给decoder输入错误的向量

这种方法叫做scheduled sampling,轮训采样或者是定时采样

这种方法会破坏transformer计算平行性

你可能感兴趣的:(transformer,深度学习,人工智能)

CES Asia 2025优惠期倒计时5天，科技盛宴即将开启赛逸展张胜科技
随着时间的推移，备受瞩目的CESAsia2025优惠期已进入最后5天倒计时。作为亚洲顶级的消费电子盛会，CESAsia2025将汇聚众多国内外知名的科技企业，展示涵盖智能家居、智能出行、虚拟现实、人工智能等热门赛道的顶尖成果，是行业交流、商贸合作、趋势洞察的绝佳平台。在这最后的优惠时段内，参展商们仍有机会享受到展位费用的梯度折扣，越早锁定，优惠力度越大，还能优先挑选心仪展位，获得额外的宣传推广资源
AI Agent 原理解析及应用场景深度洞察 power-辰南大模型算法实战工程人工智能 ai agent 大模型
在当今科技飞速发展的时代，AIAgent作为人工智能领域的重要分支，正以其独特的智能特性和广泛的应用潜力，逐渐渗透到各个行业和我们生活的方方面面。它为解决复杂问题、提升系统效率和实现智能化交互提供了全新的途径。本文将深入剖析AIAgent的原理，并详细探讨其在多个领域的关键应用场景。一、AIAgent的定义与基本概念AIAgent，即人工智能代理，是一种能够感知其所处环境，并基于所感知的信息自主地
深度学习环境配置指南！（Windows、Mac、Ubuntu全讲解） Charmve #AI学习指导：从入门到进阶软件安装环境配置计算机视觉实战文档详细开放源码 cuda linux gpu anaconda ubuntu
关注“迈微AI研习社”，内容首发于公众号作者：伍天舟、马曾欧、陈信达入门深度学习，很多人经历了从入门到放弃的心酸历程，且千军万马倒在了入门第一道关卡：环境配置问题。俗话说，环境配不对，学习两行泪。如果你正在面临配置环境的痛苦，不管你是Windows用户、Ubuntu用户还是苹果死忠粉，这篇文章都是为你量身定制的。接下来就依次讲下Windows、Mac和Ubuntu的深度学习环境配置问题。一、Win
联邦学习中客户端发送的梯度是vector而不是tensor wzx_Eleven 联邦学习机器学习网络安全人工智能
在联邦学习中，当本地使用神经网络或深度学习模型时，训练的梯度通常是与模型参数（权重和偏置）相对应的梯度数据。具体来说，梯度的类型和形状取决于模型的结构（例如，卷积神经网络、全连接网络等），以及模型的层数、每层的神经元数量等因素。1.梯度类型：梯度是一个张量：在神经网络中，梯度通常是一个张量（tensor），每一层的梯度张量的形状和该层的权重形状相匹配。具体来说，梯度是损失函数对每个参数的偏导数，表
1. 基于大模型能力，如何提炼出优质prompt（入门版）姚瑞南 prompt系列课程人工智能 AIGC chatgpt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）本文简介：入门版：基于大模型能力，如何提炼出优质prompt提示词的重要性和价值大模型基础能力简介prompt的基本定义如何定义优质的promptprompt的万能公式与套路prom
conv2former模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习人工智能 python 神经网络 conda
模型背景在Conv2Former模型提出之前，视觉识别领域的研究主要集中在两个方向：传统卷积神经网络（ConvNets）新兴的视觉Transformer（ViTs）ConvNets通过堆叠基本模块和采用金字塔结构取得了显著进展，但往往忽略了全局上下文信息的显式建模。ViTs则通过自注意力机制有效捕捉全局依赖关系，在多个视觉任务中展现出优异性能。然而，ViTs在处理高分辨率图像时面临计算成本过高的问
论文阅读--Qwen2&2.5技术报告 __如果论文阅读 qwen
Qwen21引言所有模型都是在超过7trilliontoken（7万亿）的高质量、大规模数据集上预训练的2Tokenizer&Model2.1Tokenizer沿用Qwen（Bai等人，2023a）的做法，我们采用了基于字节级字节对编码的相同Tokenizer所有大小的模型都采用一个共有词汇表，包含151,643个常规词元和3个控制词元2.2模型架构基于Transformer架构的大型语言模型，具
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
AI系统架构原理与代码实战案例讲解 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统架构原理与代码实战案例讲解1.背景介绍1.1人工智能的发展历程1.1.1人工智能的起源与早期发展人工智能的概念可以追溯到上世纪50年代，图灵测试的提出标志着人工智能作为一门学科的诞生。早期的研究主要集中在符号推理、专家系统等领域，取得了一些突破，例如机器定理证明、西洋跳棋程序等。1.1.2人工智能的黄金时期上世纪80年代，随着专家系统的兴起，人工智能进入了一个黄金时期。专家系统通过模拟人类
文档图像矫正任务的前沿进展：引入Transformer框架、极坐标的思路
在《文档数字化采集与智能处理：图像弯曲矫正技术概述》一文中，我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级，文档图像去畸变技术也在不断探索新的可能性。今天，我们将讨论近年来文档图像矫正任务的前沿进展，分享一些我们正在关注的方向，欢迎与我们共同探讨、交流进步。Transformer架构下的文档矫正探索代表性工作DocTr:DocumentImageTransform
【多模态 AI】从跨模态学习到生成革命：文本、图像与音频的深度交融网罗开发人工智能 AI 大模型机器学习人工智能 AIGC
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
美国采取行动扩大人工智能出口限制数据分析能量站机器学习人工智能
大幅拓展限制：美国政府（拜登执政末期提出）出台新规，显著扩大人工智能技术出口限制，构建针对先进芯片与模型获取的国际分级体系。出口限制范围：对多数国家限制出口人工智能芯片与模型，仅少数亲密盟友除外。新规创建三级体系，对不同国家区别对待，并首次限制大型AI模型封闭权重出口。规则运作方式意见征询与生效：新规在媒体曝光后发布，设120天公众意见征询期，供新政府参考调整，预计一年后生效。国家分级及限制一级国
通用人工智能的多层次提示词架构 AI天才研究院计算机软件编程原理与应用实践大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
通用人工智能的多层次提示词架构关键词通用人工智能（AGI），多层提示词架构，人工智能设计原则，算法原理，系统架构设计，应用案例摘要本文将深入探讨通用人工智能（AGI）的多层次提示词架构，阐述其背景、核心概念、设计原则和实现方法。我们将逐步分析这一架构在不同领域的应用，并展望其未来的发展方向。通过本文，读者将了解如何构建能够模拟人类智能的多层次提示词系统，并思考其在实际应用中的潜力与挑战。目录第一部
半导体、芯片、人工智能、智能驾驶汽车的趋势不爱原创的Yoga 人工智能汽车
1.市场增长与需求汽车半导体市场：预计到2025年，中国汽车半导体市场仍将保持稳健增长态势，AI和能源将成为未来最重要的两大变革因素。2023年中国汽车电子芯片行业市场规模约为820.8亿元，预计2024年有望增至905.4亿元左右。随着新能源汽车和智能化的快速发展，一些新的半导体技术在中国汽车领域迅速应用，如集中式架构和高性能处理器需求正日益增加。AI芯片市场：随着AI技术的不断普及和应用场景的
Minimax 开源的 4 百万超长上下文模型百态老人人工智能大数据笔记
MiniMax开源4百万超长上下文模型MiniMax开源模型概述2025年1月15日，MiniMax发布并开源了MiniMax-01全新系列模型，这一举措在人工智能领域引发了广泛关注。该系列包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax作为大模型六小强（或六小虎）企业之一，其推出的这一系列模型有着诸多独特之处。这一系列模型的开源是Min
程序员创业公司的技术栈选择与性能优化 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《程序员创业公司的技术栈选择与性能优化》概述本文旨在探讨程序员创业公司在选择技术栈和进行性能优化方面的策略与实践。随着技术的不断进步和市场的快速变化，技术栈的选择和优化成为创业公司成功的关键因素。正确的技术栈选择不仅能够提升系统的性能和可扩展性，还能降低开发成本和维护难度。关键词技术栈选择性能优化创业公司云计算数据库微服务人工智能区块链边缘计算摘要本文首先分析了技术栈选择的重要性以及创业公司在技术
AI人工智能深度学习算法：高并发场景下深度学习代理的性能调优 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度学习代理的兴起近年来，随着人工智能技术的飞速发展，深度学习在各个领域都取得了显著的成果。特别是在自然语言处理、图像识别、语音识别等领域，深度学习模型的性能已经超越了传统方法。为了更好地将深度学习技术应用于实际场景，深度学习代理应运而生。深度学习代理是一种将深度学习模型封装起来，并提供对外接口的服务。它可以接收来自客户端的请求，将请求数据输入到深度学习模型中进行推理，并将推理结
AI生成PPT：智能技术重塑演示文稿创作的新篇章 mhjidfoi 人工智能
在快节奏的商业与学术环境中，演示文稿（PPT）作为信息传递与观点展示的重要工具，其质量与效率直接关系到演讲者的说服力和观众的接收度。近年来，随着人工智能（AI）技术的飞速发展，AI生成PPT的应用正逐渐从科幻概念转变为现实工具，为演示文稿的创作带来了革命性的变革。本文将深入探讨AI生成PPT的工作原理、优势、挑战以及未来展望，为您揭示这一智能技术的无限潜力。一、AI生成PPT的工作原理AI生成PP
零门槛一键生成PPT，利用人工智能快速提高办公效率（无需第三方插件） beautycountry88 powerpoint 人工智能
人工智能技术的发展正以惊人的速度改变着我们的世界，今天给大家介绍下利用ChatGPT快速生成PPT的方法，它能够帮助你一键生成PPT内容和漂亮的PPT文档，无需繁琐的设计和排版，只需要与ChatGPT交流，你就能轻松拥有一份令人赞叹的演示文稿。什么是ChatGPT？它是基于人工智能技术的语言模型，能够理解和生成自然语言。与传统的PPT制作方式不同，ChatGPT通过与你进行对话，理解你的需求和要点
Transformer中的注意力机制：从基础概念到高级变体的全面解析 XianxinMao transformer 深度学习人工智能
注意力机制的基础概念核心组件(Query、Key、Value)的详细解释主要的注意力机制变体：自注意力(Self-Attention)多头注意力(Multi-HeadAttention)掩码注意力(MaskedAttention)注意力评分函数的类型和特点多头注意力的现代变体：MHA(Multi-HeadAttention)MQA(Multi-QueryAttention)GQA(Grouped-
探索AloT（人工智能物联网）：未来智能设备的核心驱动力为也科技人工智能物联网边缘计算目标检测 iot
探索AloT（人工智能物联网）：未来智能设备的核心驱动力随着物联网（IoT）技术的飞速发展，人工智能（AI）也在各行各业中找到了应用的空间。两者的结合，诞生了一个崭新的技术领域——AloT（ArtificialIntelligenceofThings，人工智能物联网）。AloT不仅仅是AI与物联网技术的简单融合，它更是推动智能设备进化和物联网产业向更高层次发展的关键力量。今天，我们就来深入探讨Al
Python中实现多层感知机（MLP）的深度学习模型 Echo_Wish Python 笔记从零开始学Python人工智能 python 深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题，而多层感知机（MLP）是最基础的深度学习模型之一。在这篇教程中，我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机（MLP）？多层感知机（MLP）是一种前馈神经网络，它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成，神经元之间通过权重连接。MLP能够学习输入数据的非线性特征，因此在复杂问题的建模中非
深度学习-92-大语言模型LLM之基于langchain的模型IO的模型调用皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Model的输入输出2langchain支持的模型3调用Ollama模型3.1设置环境变量3.2大语言模型LLM(OllamaLLM)3.2.1生成文本补全3.2.2流式生成文本补全3.3聊天模型(ChatOllama)3.3.1内置的消息类型3.3.2HumanMessage和SystemMessage3.3.3元组方式构成消息列表3.3.4stream流式3.4文本嵌入模型(Olla
深度学习基础18（多层感知机代码实现） NDNPOMDFLR 深度学习深度学习 python 经验分享人工智能神经网络
多层感知机的从零开始实现现在自己实现一个多层感知机。为了与之前softmax回归获得的结果进行比较，将继续使用Fashion-MNIST图像分类数据集importtorchfromtorchimportnnfromd2limporttorchasd2lbatch_size=256train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
人工智能与量子计算：未来编程的碰撞与共鸣大梦百万秋知识学爆量子计算
引言：编程的“摩尔定律”快到尽头了？曾几何时，摩尔定律曾预言着计算能力的飞速发展——每两年，晶体管的数量翻倍，处理器的速度也在跟着疯狂增长。这个定律引领了数十年的技术革命，推动了今天的智能手机、超级计算机和现代互联网的诞生。然而，摩尔定律的黄金时代正逐渐走向尾声。传统的硅基芯片工艺遇到了物理极限，无法再轻易实现持续的性能翻倍。此时，新的计算范式开始崭露头角——量子计算与人工智能（AI）的结合，正在
AI Agent：深度解析与未来展望码事漫谈 c++人工智能
一、AIAgent的前世：从概念到萌芽（一）早期探索AIAgent的概念可以追溯到20世纪50年代，早期的AI研究主要集中在简单的规则系统上，这些系统的行为是确定性的，输出由输入决定。随着时间的推移，AI逐渐能够处理不确定性，1990年代机器学习的兴起为AIAgent的发展奠定了基础，神经网络技术的突破为深度学习的发展提供了可能。（二）技术突破2017年后，大语言模型（LLM）的出现推动了AIAg
【深度学习基础】线性神经网络 | softmax回归的简洁实现 Francek Chen PyTorch深度学习深度学习神经网络回归 softmax 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈PyTorch深度学习⌋⌋⌋深度学习(DL,DeepLearning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据
【人工智能】Python常用库-Keras：高阶深度学习 API IT古董深度学习人工智能 Python 人工智能 python 深度学习
Keras：高阶深度学习APIKeras是一个高效、用户友好的深度学习框架，作为TensorFlow的高级API，支持快速构建和训练深度学习模型。它以模块化、简单和灵活著称，适合研究和生产环境。Keras的发音为[ˈkerəs]，类似于“凯拉斯”或“克拉斯”。这个名字来源于希腊语κέρας(kéras)，意思是“角”或“角质物”。这个词与深度学习的灵感来源——大脑的神经网络结构有一定联系。Kera
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级 2401_89759264 人工智能前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
南京大学苏州校区学生代表团到访合合信息，开启“沉浸式”人工智能企业行人工智能图像识别程序员
为进一步深化校企合作，探索产业科技拔尖创新人才培养新模式，近期，南京大学苏州校区师生代表到访上海合合信息科技股份有限公司（以下简称“合合信息”，股票代码：SH688615）。此次活动设置了展厅讲解、技术交流、模拟面试等多个体验环节，旨在增强学生对人工智能及商业大数据技术在实际应用中的理解和认识，引导学生系统性开展职业规划，提升职业胜任力。图说：南京大学苏州校区学生代表团到访合合信息合影留念合合信息
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多