写进メ诗的结尾。

Attention Is All You Need（Transformer，NIPS2017）

Transformer

摘要
引言
相关工作
模型架构
结论

摘要

当前主流的序列转录模型，主要依赖较为复杂的循环或卷积神经网络，此类神经网络一般包括编码器（Encoder）和解码器（Decoder）结构。在性能最好的模型之中，也会在编码器和解码器之间使用注意力机制。

本文提出了一种新的简单的架构（Transformer），该架构完全基于注意力机制，而不涉及循环或卷积神经网络。在两个机器翻译任务上的实验表明，Transformer具有更佳的性能，更好的并行度，更少的训练时间。模型在WMT2014英译德翻译任务上获得了28.4%的BLEU成绩，比现有的最好成绩高2%以上。

序列转录模型：给定一个序列，生成另一个序列，比如机器翻译。
BLEU Score：机器翻译里常用的一个衡量标准。

（这篇文章一开始是针对机器翻译这个小任务来写的，但是随着BERT、GPT等把这个架构用在更多的语言处理任务上，整个工作就出圈了。最近还用在了图像和视频上，几乎什么东西都能用。）

引言

RNN、LSTM、GRU是用于解决序列建模和转录问题（如语言建模和机器翻译）的主流方法。这里有两个比较主流的模型：

一个叫做语言模型
另一个是当输出结构化信息比较多的时候会使用的编码器和解码器结构

在RNN中给定一个序列，它的计算方式是沿着这个序列从左到右一步一步往前做。假设序列是一个句子的话，操作对象就是一个一个的词，对第 $t$ 个词会计算出一个输出叫做 $h_t$ （也叫做它的隐藏状态）， $h_t$ 是由前面一个词的隐藏状态 $h_{t-1}$ 和当前第 $t$ 个词本身决定的，这样就可以把前面学到的历史信息通过 $h_{t-1}$ 放到当下，然后和当前的词做一些计算，而后得到输出。

RNN处理时序信息存在的问题：

它是一个一步一步计算（时序）的过程，难以并行化处理，使得计算效率较差
历史信息一步一步往后传递，如果时序较长的话，那么早期的时序信息在后面可能要被丢弃。如果不想丢弃，就需要较大的 $h_t$ ，每一步都得把它存下来，这会导致较大的内存开销

在这篇文章之前，注意力机制（Attention）已经成功用在了编码器和解码器之中，主要用于如何将编码器的东西有效地传递给解码器，常与RNN结合使用。

本文提出来的Transformer是一个新的模型，不再使用循环神经网络，而是仅使用注意力机制。该模型并行度较高，能够在较短时间内做到比之前更好的结果。

模型架构

序列模型中，比较好的是编码器和解码器结构。

编码器： 对于一个长为 $n$ 的 $x_1, ..., x_n)$ 输入序列，编码器会把它映射成一个长也为 $n$ 的 $z_1, ..., z_n)$ 向量表示，并将其作为输出序列。换句话说，编码器能够把原始输入变成机器学习可以理解的一系列向量。

解码器： 拿到编码器的输出序列，解码器会根据它来生成一个长为 $m$ 的 $y_1, ..., y_m)$ 序列，这里 $n$ 和 $m$ 可以相同，也可以不同。解码器和编码器最大的不同之处在于，在解码器中，词是一个一个生成的（对于编码器来说，可能一次性就能看全整个句子，而在解码的时候只能一个一个的生成），在过去时刻的输出也会作为当前时刻的输入，即自回归（auto-regressive）。

Transformer使用了编码器和解码器结构，具体来讲它是将self-attention、point-wise和fully connected layers一个一个堆在一起。

上图是Transformer的模型架构，也是编码器和解码器结构。左半边是编码器，右半边是解码器。左下角的Inputs是编码器的输入，如果是中文翻英文的话，输入就是中文的句子。右下角的Outputs是解码器的输入，解码器在做预测的时候是没有输入的，实际上这个输入是指解码器将之前时刻的一些输出作为输入（shifted right就是一个一个往右移）。Input Embedding表示嵌入层，进来的是一个一个的词，需要将它们表示成向量。Positional Encoding。Multi-Head Attention、Feed Forward、Add & Norm组合起来成为一个Transformer Block，类似于残差网络的残差块。N代表层数，由多个Transformer Block堆叠而成。编码器的输出会作为解码器的输入，解码器和编码器有点像，但是多了Masked Multi-Head Attention。编码器和解码器都可以认为是由几个部分组成的块重复N次。上图所示的确是一个标准的编码器和解码器结构，只是说中间的每一块有所不同，还有就是编码器和解码器之间的连接有所不同。

Transformer编码器： 该编码器由6个（N=6）完全一样的层组成。

每一个Layer中会有两个Sublayer
第一个Sublayer叫做Multi-Head Self-Attention
第二个Sublayer是一个simple position-wise fully connected feed-forward network，说白了就是一个MLP
对于每一个子层采用了一个残差连接，而后再使用Layer Normalization
经过Enbedding和Positional Encoding得到的x输入进来后会进入子层
因为是残差连接，所以经过子层得到的Sublayer(x)会跟x加在一起，再送入LayerNorm，可以写成LayerNorm(x+Sublayer(x))
残差连接需要x和Sublayer(x)的维度一样，如果不一样的话，就需要做投影。为了简单起见，把维度固定为512（固定表示长度的模型相对来说较为简单，调参的话只需调一个参数就行，就是模型的输出维度；另外一个参数就是重复的块N）

考虑一个最简单的二维输入情况，在这种情况下输入为一个矩阵，每一行是一个样本，每一列是一个特征。
BatchNorm所干的事情就是每一次在一个小mini-batch里，将每一列（若干样本的特征）数据的均值变成0，方差变成1。在训练的时候是在每一个小批量里面计算均值跟方差；对于预测，训练时会把所有数据扫一遍，然后计算全局的均值和方差，并将它们保存，以便在预测的时候再使用。BatchNorm会学习缩放因子和偏移因子两个参数，使得特征向量可以变成均值和方差为任意某个值的东西，增强表征能力。
LayerNorm和BatchNorm在很多时候几乎是一样的。对于一个同样的二维输入来说，LayerNorm是对每个样本做归一化，而不是多个样本。BatchNorm是将每个列（多个样本的同一通道特征）的均值变为0，方差变为1；LayerNorm是将每个行（一个样本的所有通道特征）的均值变为0，方差变为1。因此，LayerNorm可以认为是把整个数据转置一下放到BatchNorm中处理，然后出来的结果再转置回去。

在Transformer或者正常的RNN中，输入是一个三维的东西，x轴表示序列（sequence），y轴表示特征向量（feature），z轴表示样本数量（batch）。可以想象成一个样本由一个句子序列组成，一个句子有多个词，每个词能映射成一个特征向量，然后多个样本构成一个矩形体，如下图所示。

如果用BatchNorm的话，每次对多个样本的同一位置特征进行处理，如上图中的蓝色正方形所示。相当于把这一块切下来拉成一个向量，然后进行均值和方差的计算。
如果用LayerNorm的话，每次对一个样本的所有位置特征进行处理，如上图中的黄色正方形所示。

切法不一样会带来不同的效果，为什么LayerNorm用的多一点？

在时序序列模型中，每个样本的长度可能不一样，没有东西的地方一般会填充零，如下面所示。主要问题在于均值和方差的计算上面，对于BatchNorm来说，会对下图中切出来的蓝色梯形部分进行均值和方差的计算（只有这部分是有效值，其余地方补零，并无多大作用），如果样本长度的变化较大，那么每次做小批量的时候，算出来的均值和方差的抖动相对来说是较大的

另外，在做预测的时候要把全局的均值和方差记录下来，如果这个均值和方差碰到一个新的特别长的预测样本，在训练时没见过这种长度，那么预测的效果可能就没那么好了
相反，LayerNorm相对来说没有太多的问题，因为它是按照每个样本来进行均值和方差的计算，同时也不需要记录全局的均值和方差，相对来讲更稳定一些

Transformer解码器： 解码器跟编码器很像，也是由6个（N=6）一样的层组成，每个层里也有Multi-Head Attention和Feed Forward两个子层。
与编码器不同的是，解码器中用了第三个子层Masked Multi-Head Attention，它同样是多头的注意力机制，也用了残差连接和LayerNorm。

解码器中做的是自回归，即当前时刻的输入来自前面一些时刻的输出，意味着在做预测的时候只能看到前面时刻的输出，而不能看到后面时刻的输出。
在注意力机制中，每一次都能够看到完整的输入，但是在解码的时候要避免看到完整的输入。也就是说在解码器训练的时候，预测第 $t$ 个时刻的输出，不应该看到 $t$ 时刻以后的那些输入。具体做法是增加一个带掩码的多头注意力机制，这个Masked的作用是保证输入进来的时候， $t$ 时刻只会看到之前的输出，而不会看到之后的输入，从而保证训练和测试时候的行为是一致的。

注意力机制（Attention）： 注意力函数可以被描述为将一个Query和一组Key-Value对映射成输出，其中Query、Keys、Values和输出都是向量。输出是Values的加权和，因此输出的维度和Value的维度是一样的。分配给每个Value的权重都是通过Query与相应Key的相似度函数计算得到的（compatibility function，不同的注意力机制有不同的算法，不同的相似度函数导致不一样的注意力版本）。

Scaled Dot-Product Attention： 如上图所示。

输入由Querys和Keys组成，它们的维度都是 $d_k$ （维度可以不一样，不一样的话有别的计算方法）
Values的维度为 $d_v$ （输出的维度也应该是 $d_v$ ）
具体计算，一个query向量和所有的key向量做内积，然后除以 $\sqrt {d_k}$ （ $d_k$ 为向量的长度），而后通过Softmax函数得到所有value的权重（query向量和key向量的内积可以看作是相似度计算，内积越大，就表示这两个向量的相似度越高；如果内积为零，即正交，则表示这两个向量没有相似度。使用Softmax得到的权重具有非负、和为1的特性，这对于权重来说比较好），最后将这些权重作用在values上，进行加权和计算就能得到输出
在实际操作中，不会一个一个的做运算，而是将一组query整合成一个矩阵Q，query的个数与key-value对的个数可能不一样，但query向量的长度与key向量的长度一定是一样的，这样才能进行内积运算
给定Q和K两个矩阵，通过矩阵相乘就会得到一个 $m \times n$ 的矩阵，如下图所示，它的每一行（如图中蓝色线条所示）就是一个query向量和所有key向量的内积值。得到的矩阵会除以 $\sqrt {d_k}$ ，再送入Softmax函数做概率计算（对每一行做Softmax，行与行之间是独立的），这样就能得到权重。权重矩阵再乘V（V是一个n行 $d_v$ 列的矩阵，每一行表示一个value向量），得到一个 $m×d_v$ 的矩阵，这个矩阵的每一行就是所需要的输出。

对于m个query和n个key-value对，整个计算只需用到两次矩阵乘法，key和value在实际中对应的就是序列，这样就等价于是在并行地计算里面的每个元素（矩阵乘法便于并行）

一般有两种比较常见的注意力机制：

加性注意力机制（additive attention），可以处理query和key不等长的情况
乘性/点积注意力机制（multiplicative attention/dot-product attention），文中所用的就是点积注意力机制，唯一的区别就是文中的点积注意力多除以了一个 $\sqrt {d_k}$ ，这个 $\sqrt {d_k}$ 就是命名中提到的Scaled
这两种注意力机制其实都差不多，文章之所以选用点积注意力机制，是因为实现起来比较简单，两次矩阵相乘就能得到结果，而且效果比较好

这里为什么要除以 $\sqrt {d_k}$ ：

当 $d_k$ 不是很大的时候除不除都没关系。但是当 $d_k$ 比较大的时候，也就是两个向量长度比较长的时候，做点积得到的值可能比较大也可能比较小
当值比较大的时候，向量之间相对的差距就会变大，导致内积值最大的那个值进行Softmax操作后就会更接近1，剩下的值就会更靠近0，值就会向两极分化。当出现这种情况后，在计算梯度的时候，梯度会比较小，就会跑不动（Softmax最后的结果是希望预测值置信的地方尽量靠近1，不置信的地方尽量靠近0，这样就差不多收敛了）
在Transformer里面一般用的 $d_k$ 比较大（512），所以除以 $d_k$ 是一个不错的选择

在Scaled Dot-Product Attention中，Mask主要是为了避免在第 $t$ 时刻的时候看到以后时刻的东西。具体来说，假设query和key是等长的，长度都为n，而且在时间上能对应起来，对第 $t$ 时刻的 $q_t$ 做计算的时候，应该只是看到 $k_1$ 到 $k_{t-1}$ ，而不应该看到 $k_t$ 和它之后的东西，因为 $k_t$ 在当前时刻还没有。

但是在做注意力机制的时候，会发现其实 $q_t$ 在跟矩阵K里全部的东西做运算，从 $k_1$ 一直算到 $k_n$ ，只要保证在计算权重的时候，不要用到后面的东西就可以了。

Mask的具体操作就是，对于 $q_t$ 和 $k_t$ 之后的用于计算的那些值，把它们替换成非常大的负数，这些大的负数在进入Softmax做指数运算后就会变成0，因而经过Softmax处理后出来的对应权重都会变成0，而 $k_t$ 之前所对应的值都会有权重。

这样在计算输出的时候就只用到了V对应的 $v_1$ 到 $v_{t-1}$ 的结果，而 $v_t$ 后面的东西并没有用到。

所以Mask的效果是在训练的时候，让第 $t$ 个时刻的query只看到对应的前面的那一些key-value对，使得在做预测的时候能够进行一一对应。

Multi-Head Attention： 与其做一次单个的注意力函数，不如把整个Q、K、V投影到一个低维，投影h次，然后做h次的注意力函数，再将每一个函数结果并在一起，再投影回来得到最终的输出，如下图所示。

原始的values（V）、keys（K）、querys（Q）进入一个线性层（线性层将其投影到比较低的维度，投影h次），然后再做一个scaled dot-product attention，做h次，得到h个输出，再把这些输出向量全部合并到一起，最后做一次线性的投影，然后回到Multi-head attetion。

为什么要做多头注意力机制：

dot-product的注意力机制中没有什么可学习的参数，具体函数就是内积。有时候为了识别不一样的模式，希望有一些不一样的计算像素的办法
如果是用加性注意力机制的话，里面其实是有一个权重可以学习的。但本文使用的是内积，它的做法是先投影到低维，这个投影的w是可以学的，也就是说，有h次机会希望可以学到不一样的投影方法，使得再投影进去的度量空间中能够匹配不同模式所需要的相似函数，最后把所得到的东西再做一次投影（这里有点像在卷积神经网络里面有多个输出通道的感觉）
具体的计算（公式如下图），在Multi-head的情况下，还是以前的Q、K、V，但是输出已经是不同头的输出做Contact运算再投影到一个 $W^O$ 里面。对每一个头，就是把Q、K、V通过不同的可以学习的 $W^Q$ 、 $W^K$ 、 $W^V$ 投影到 $d_v$ 上面，再做注意力函数，然后再出来就可以了

虽然公式中看起来有很多小矩阵的乘法，实际上在实现的时候也可以仅通过一次的矩阵相乘来实现

在本文中，h是等于8的，也就是用了8个头。做注意力机制的时候，因为有残差连接的存在，使得输入和输出的维度是一样的。所以在投影的时候，投影的维度就是输出的维度除以h（输出维度是512，除以8之后，每一次把它投影到64维的维度，然后在这个维度上面计算注意力函数，最后再投影回来）。

Transformer通过三种方式来使用多头注意力机制，分别就是模型结构中的三个注意力层：

第一个注意力层，对于编码器的输入，假设句子长度是n的话，它的输入就是n个长为d的向量，每一个输入的词对应的就是一个长为d的向量，一共有n个词。
编码器中的多头注意力层有三个输入，分别表示key、value、query，图中一根线复制成三根线，表示的是同样的东西，这个东西既作为key，也作为value，同时也作为query，这就叫自注意力机制。换句话说，key、value、query其实就是一个东西，就是它自己本身。
假设不考虑多头和有投影的情况，输出其实是输入的加权和，权重来自于自己本身跟各个向量之间的相似度。如果有多头的话，因为有投影，会学习出h个不一样的距离空间出来，使得出来的东西会有点不一样
第二个注意力层，就是解码器中的Masked Multi-Head Attention。解码器也是一样的，也是同一个东西复制了三次，只是长度可能变成了m，所以它跟编码器中的一样也是自注意力，唯一不同的是里面有一个Mask（Mask的作用：在解码器计算query对应的输出的时候，不应该看到第 $t$ 时刻后面的东西，意味着后面的东西要设为0）
第三个注意力层，就是解码器中的Multi-Head Attention。它不再是自注意力了，它的key和value来自编码器的输出，query来自解码器的上一个attention。编码器最后一层的输出就是n个长为d的向量，解码器的Masked Multi-Head Attention的输出就是m个长为d的向量。编码器的输出作为key和value传入到这个注意力层，解码器的上一层输出作为query传入到这个注意力层，这意味着query要计算出一个输出，这个输出是来自于value的一个加权和（来自于编码器的输出的加权和，权重的粗细程度取决于query与编码器输出的相似度，如果相似度比较高的话，权重就会大一点，如果相似度比较低的话，权重就会小一点）。这个注意力层中所要做的其实就是把编码器里面的输出根据需要有效地截取出来。

注意力机制如何在编码器和解码器之间传递信息的时候起作用：解码器根据当前的输入向量在编码器的输出里挑选感兴趣的东西，也就是去注意感兴趣的东西，那些不那么感兴趣的东西就可以忽略掉。

Position-wise Feed-Forward Networks： 其实就是一个fully connected feed-forward network，就是一个MLP，但是不同之处在于它是applied to each position seperately and identically（就是把同一个MLP对每个词作用一次，即position-wise，说白了就是MLP只是作用在最后一个维度）

position：输入序列中有很多个词，每一个词就是一个点，这些点就是position
具体公式如下图所示， $xW_1+b_1$ 就是一个线性层， $ma x$ 就是ReLU激活层，最后再有一个线性层
在注意力层的输入（每一个query对应的输出）的长为512， $x$ 就是一个512的向量， $W_1$ 会把512投影成2048（等价于将它的维度扩大了4倍），因为有残差连接，所以还需要投影回去，因此 $W_2$ 又把2048投影回512
这其实就是一个单隐藏层的MLP，中间的隐藏层将输入扩大4倍，最后输出的时候又回到输入的大小（如果用Pytorch来实现的话其实就是把两个线性层放在一起，而不需要改任何参数，因为Pytorch在输入为3维的时候，默认就是在最后一个维度做计算）

Embedding： 因为输入是一个一个的词（或者叫词源，token），需要将其映射成向量。Embedding的作用就是给任何一个词，学习一个长为d的向量来表示它（本文将d设置为512）

编码器的输入需要Embedding
解码器的输入也需要Embedding
在Softmax前面的线性层也需要Embedding

本文中这三个Embedding是一样的权重，这样的话训练起来会简单一点。另外还将权重乘了 $\sqrt d$ ，维度一大的话，权重值就会变小，之后要加上positional encoding，它不会随着长度变长把它的long固定住，因此乘上了根号d之后，使得它们在scale方面差不多。

Positional Encoding： Attention没有时序信息，输出为value的加权和，权重是query和key之间的距离，和序列信息无关（也就是说给定一句话，把顺序任意打乱之后，经过Attetion出来的结果都是一样的，顺序会变，但是值不会变。这样是存在问题的，所以需要把时序信息加入进来）。

RNN是如何添加时序信息的？RNN将上一个时刻的输出作为下一个时刻的输入来传递历史信息。

Attention是在输入里面加入时序信息，将输入词所在的位置信息加入到输入里面（positional encoding），具体公式如下所示。

在计算机中，数字是用一定长度的向量来表示的。词在嵌入层会表示成一个长为d的向量，同样可以用一个长为d的向量来表示数字，也就是词的位置。这些数字的不同计算方法是使用周期不一样的sin和cos函数的值，所以说任何一个值可以用长为d的向量来表示，然后这个长为d的记录了时序信息的向量和嵌入层相加，就完成了将时序信息加进数据中的操作。因为是cos和sin的函数值是在+1和-1之间抖动的，所以乘了一个 $\sqrt d$ ，使得每个数字也是差不多在±1的数值区间里面。

为什么要使用自注意力：

上表比较了四种不一样的层。第一个是自注意力层，第二个是循环层，第三个是卷积层，第四个是构造出来的受限的自注意力。第一列是计算复杂度，越低越好；第二列是顺序的计算，越少越好。指的是在算Layer的时候，下一步计算必须要等前面多少步计算完成，相当于是说非并行度；第三列说的是信息从一个数据点走到另一个数据点要走多远，越短越好。n是序列的长度，d是向量的长度。

整个自注意力就是几个矩阵做运算，其中一个矩阵运算是query矩阵（n×d）乘以key矩阵（也是n×d），两个矩阵相乘，算法复杂度就是n平方乘以d，别的矩阵运算复杂度也是一样的。因为只是牵涉到矩阵的运算，矩阵中可以认为并行度是比较高的，所以是o(1)。最大长度是说从一个点的信息想跳到另一个点要走多少步，在attention里面，一个query可以跟所有的key做运算，而且输出是所有value的加权和，所以query对任何一个很远的key-value对只要一次就能过来，所以长度是比较短的。

结论

Transformer是第一个完全基于注意力机制的序列转录模型，用Multi-headed self-attention取代了原编码器和解码器结构中最常用的循环层。对于机器翻译任务，Transformer的训练速度要比循环或卷积网络快很多，而且训练效果也要更好。作者对于这种完全基于注意力机制的模型感到很兴奋，想把它应用在文本以外的其他任务上，比如图像、音频、视频。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
2019-01-19 王小康KK
姓名:王康公司:扬州市方圆建筑工程有限公司2018年3月16日～3月18日上海361期《六项精进》感谢二组学员【日精进打卡第307天】【知～学习】《六项精进》大纲3遍共862遍《大学》通篇3遍共860遍《六项精进》全书40页【经典名句】思想决定行为，行为决定习惯，习惯决定性格，性格决定命运。【行～实践】一、修身：（对自己个人）1、践行六项精进的理念。二、齐家：（对家庭和家人）1、和女朋友视频聊天。
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
现代汉语粗糙版文学史与经典学习搬运工
第十六章文学史与经典文学史的兴起在西方,虽然从亚里士多德开始,在人类的著述中已经可以找到文学史概念与写作方式的萌芽,但是,人们一般认为17世纪后期到18世纪是现代文学史写作真正开始的时期。长达百年波及整个欧洲的“古今之争”孕育出文学研究的历史意识,现代意义上的文学史观念在这场影响深远的论争中初见端倪。从18世纪晚期到19世纪初,由于席勒、弗·施莱格尔和赫尔德等人的介入,文学史研究逐渐变得复杂和成熟
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
2019-03-24 李飞720
姓名：李飞企业名称：临沂鑫道食品有限公司组别373期利他1组日精进打卡第338天】【知~学习】1、阿米巴经营一段2、活用人才1段3、活法、一段【行~实践】一、修身：读书、抽烟减量、俯卧撑个跑步3公里二、齐家、劝说老爸与姑姑和好三、建功、业务洽谈【经典名句分享】1、依据原理原则追求事物的本质，以“作为人，何谓正确”进行判断2、经营者必须为员工物质和精神两方面的幸福殚精竭虑，倾尽全力，必须超脱私心，让
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
2019-04-10 shuaigefeng
姓名：王林锋企业名称：三亚蔚蓝时代实业有限公司组别：420期努力6组【日精进打卡251天】【知~学习、诵读】《六项精进》2遍，累计256遍《大学》2遍，累计220遍【经典分享】1、想过成功、想过失败、也想过放弃。【行~实践】一、修身：（对自己个人）1.拍打腿部两侧50下，舌顶上颚50下。2.坚持诵读、阅读。3.坚持锻炼、按时睡觉起床。4.控制健康饮食，饭后走动30分钟。5.每天反省自己的思想和行为
妖孽宫廷（四）安好是佳
1.“纸糊三阁老，泥塑六尚书”与商辂堂堂文官言官，数年苦读儒家经典，应该是皇帝的智囊团，但是在这个时期的明朝政坛下居然是这样的评价，成为皇帝的后腿子团，成为国家发展的智障团，可见其背后有很强的推动力，让言官们躲避刚正不阿，做出祸国殃民的举措。我想，这个推动力应该是首先保住性命，而后同流而强取豪夺他人财物。在监派出头的环境下，尤其在监派强大的特务机构和惩罚机构，让那些发现问题的言官们不敢言。这可是脑
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【新教育-教师随笔】读《做最好的英语老师》有感 164c5aca7b79
伊川县直中学王素平《做最好的英语老师》这本书是作者这些年在他教学中得与失的总结。里面给我们提供了听力，单词，句子，阅读，作文等模块的教学方法，让我受益匪浅，现总结如下：一.语文教学给了我们什么启示？（1）：现有的英语教材内容简单，枯燥，与学生的心智发展水平严重脱节。我们要给学生补中一些贴近学生生活，能感动和影响他们的经典作品。让学生学习知识的同时，有所感悟和思考，同时享受审美的乐趣！如AWiseO
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
内经简介（上）骆长珊
哈喽大家好我是骆长珊今天是2017年1月9日，今天是我每天一篇文章的第四十八篇。最近在重温《黄帝内经》，我在不断记颂原文的过程也不断的找相关资料来看。最终目的，以教为学，写出自己知道的，提神自己的觉悟。黄帝内经》是我国传统医学四大经典著作之一（《黄帝内经》、《伤寒论》、《金匮要略》、《温病条辨》），也是第一部冠以中华民族先祖“黄帝”之名的传世巨著，是我国医学宝库中现存成书最早的一部医学典籍。在理论
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Attention Is All You Need（Transformer，NIPS2017）

Transformer

摘要

引言

相关工作

模型架构

结论

你可能感兴趣的:(经典网络框架,transformer,深度学习,自然语言处理,计算机视觉,人工智能)