Yore_

Vision Transformer综述翻译

视觉Transformer综述

摘要

Transformer是一种基于最初应用在自然语言处理领域上的自注意力机制的深度神经网络。受Transformer强表征能力的启发，研究人员将它扩展到计算机视觉任务上。与卷积网络和循环网络等其他网络类型相比，基于Transformer的模型在各种视觉基准上表现出竞争性甚至更好的性能。在这篇文献综述，我们通过将这些可视化Transformer模型应用在不同类别的任务中，并且对它们的优缺点进行了分析。特别地，主要类别包括基本图像分类、高级视觉、低级视觉和视频处理。也会简要回顾计算机视觉中的自注意力机制，因为自注意力机制是Transformer的基本组成部分。有效的Transformer模型推动了Transformer进入实际应用。最后，讨论了可视化Transformer的进一步研究方向。

1. 引言：

深层神经网络已经成为现代人工智能系统的基础设施。已经提出了各种网络类型来处理不同的任务。由线性层和非线性激活组成的多层感知机或者说全连接层是经典的神经网络。卷积神经网络[CNN]引入了卷积层和池化层，用于处理像图像这样移位不变的数据。循环神经网络[RNN]利用循环单元来处理序列数据或时间序列数据。Transformer是一种新提出的网络，主要运用自注意力机制提取内在特征。在这些网络中，Transformer是最近发明的神经网络，但却在广泛的人工智能应用领域显示出了的巨大潜力。

Transformer最初应用于自然语言处理(NLP)任务，并带来了显著的改进。例如，V aswani等人首先提出了仅基于注意力机制的Transformer模型用于机器翻译和英语选区解析任务。Devlin等人介绍了一种新的语言表示模型，称为BERT，它通过对左右两个上下文的联合调节，从未标记的文本中预先训练一个转换器。BERT获得了当时11个自然语言处理任务的最好结果。Brown等人在45TB压缩明文数据上预训练了基于GPT-3模型的具有1750亿个参数的巨大Transformer模型，并且在不同类型的下游自然语言任务上实现了强性能而无需微调。这些基于Transformer的模型表现出很强的表现能力，并在自然语言处理领域取得了突破。

受自然语言处理中Transformer能力的启发，最近研究人员将Transformer扩展到计算机视觉任务。CNN过去是视觉应用的基本组成部分，但是Transformer正在展示它作为CNN之外的另一种选择的能力。Chen等人训练一个序列Transformer对像素进行自回归预测，并与CNN相比在图像分类任务上取得有竞争力的结果。ViT是Dosovitskiy等人最近提出的视觉Transformer模型。它将单纯的Transformer模型直接应用于小块图像序列，并在多个图像识别基准上获得最先进的性能。除了基本的图像分类之外，Transformer还被用来解决更多的计算机视觉问题，如对象检测、语义分割、图像处理和视频理解。由于其优异的性能，越来越多的基于Transformer的模型被提出用于改进各种视觉任务。

基于Transformer的视觉模型如雨后春笋般涌现，这导致我们难以跟上新进展的速度。因此，对现有的视觉模型进行调查是很有必要的，并且也对整个社区是有益的。在这篇文章中，我们重点提供了视觉Transformer的最新进展的综合概述，并讨论了进一步改进的潜在方向。为了更好地存档和方便不同主题的研究人员，我们按照应用场景对Transformer模型进行分类，如表1所示。特别地，主要场景包括基本图像分类、高级视觉、低级视觉和视频处理。高级视觉处理图像[121]中所见内容的解释和使用，例如对象检测、分割和车道检测。有许多Transformer模型解决了这些高层次的视觉任务，如DETR [14]，用于对象检测的可变形DETR [155]和用于分割的Max-DeepLab [126]。

低级图像处理主要涉及从图像(通常表示为图像本身)中提取描述[35]，其典型应用包括超分辨率、图像去噪和风格转换。低级视觉中很少有作品[17，92]使用Transformer，需要更多的研究。视频处理是计算机视觉中除了基于图像的任务之外的重要组成部分。由于视频的顺序特性，Transformer可以自然地应用于视频[154，144]。与传统神经网络CNNs或者RNNs相比，Transformer在这些任务上开始显示出竞争优势。在这里，我们对这些基于Transformer的可视化模型的工作进行了调查，以跟上这一领域的进展。视觉Transformer的发展时间表如图1所示，我们相信越来越多的优秀作品将被镌刻在里程碑上。

论文的其余部分组织如下。第二节首先介绍自注意力机制和标准Transformer。我们在第3节中描述了自然语言处理中的Transformer方法，因为研究经验可能对视觉任务有益。接下来，第四部分是论文的主要部分，总结了图像分类、高级视觉、低级视觉和视频任务的视觉转换模型。我们还简要回顾了自注意力机制的CV和有效的Transformer方法，因为它们与我们的主题密切相关。最后，我们给出了结论并讨论了几个研究方向和挑战。

2. Transformer概述：

Transformer [123]首次应用于自然语言处理中的机器翻译任务。如图2所示，它由一个编码器模块和一个解码器模块组成，具有几个相同结构的编码器/解码器，每个编码器由自注意力层和前馈神经网络组成，而每个解码器由自注意力层、编码解码器注意力层和前馈神经网络组成。在用Transformer翻译句子之前，句子中的每个单词都会被嵌入到一个512维的向量中

2.1 自注意力层：

在自注意力层，输入向量首先被转换成三个不同的向量，即查询向量q、关键向量k和值向量v，向量的维数均为512维。从不同输入得到的向量然后被打包成三个不同的矩阵Q、K、V。之后，通过以下步骤计算不同输入向量之间的注意函数(如图3左侧所示):

通过公式 $\bullet K^{T}$ 计算不同输入向量之间的得分。
通过公式 $S_{n} = \frac{S}{\sqrt{d_{k}}}$ 将梯度稳定性的分数标准化.
使用softmax函数将分数转换为概率: $P = softmax(S_{n})$
通过公式 $\bullet P$ 得到加权矩阵Z，整个过程可以统一为单个函数： $\text{Attention}(Q,\ K,\ V\ ) = \ \text{softmax}\left( \frac{Q \bullet K^{T}}{\sqrt{d_{k}}} \right) \bullet V$ （1）

直觉上公式(1)比较简单，第一步计算两个不同向量之间的得分，得分是为了确定当在当前位置对单词进行编码时，我们对其他单词的关注程度。第二步，为了更好的训练，将分数标准化，使其具有更稳定的梯度。第三步，将分数转换成概率。最后，每个值向量乘以加总概率，具有较大概率的向量将被随后的层更多地关注。

解码器模块中的编解码注意力层与编码模块中的自注意力层几乎相同，只是键矩阵K和值矩阵V是从编码器模块中导出的，查询矩阵Q是从前一层中导出的。

注意，上述过程与每个单词的位置无关，因此自注意力层缺乏捕捉一个句子中单词位置信息的能力。为了解决这个问题，在原始输入中添加了一个带有维度 $d_{\text{model}}$ 的位置编码，以获得单词的最终输入向量。具体而言，该位置用以下等式编码:

$sin(\frac{\text{pos}}{10000^{\frac{2i}{d_{\text{model}}}}})$ （2）

$cos(\frac{\text{pos}}{10000^{\frac{2i}{d_{\text{model}}}}})$ （3）

其中pos表示单词在句子中的位置，i表示位置编码的当前维度。

2.2 多头注意力：

自注意力层通过添加一种称为多头注意力的机制来进一步改进，以提高普通自注意力的性能。注意，对于一个给定的参考词，我们在通读句子的时候，往往要重点关注其他几个词。因此，尽管不影响其他位置的注意力也是同等重要的，但是单头自注意力层限制了集中在特定位置(或几个特定位置)的能力。这是通过给注意力层不同的表示子空间来实现的。具体来说，不同的头使用不同的查询、键和值矩阵，并且由于随机初始化，它们可以在训练后将输入向量投影到不同的表示子空间中。

具体来说，给定一个输入向量和头数h，输入向量首先被转换成三组不同的向量，即查询组、关键字组和值组。每组有h个向量，向量维度是 $d_{q^{'} } = d_{k^{'} } = d_{v^{'} } = \frac{d_{\text{model} } }{h} = 64$ 。然后，从不同输入得到的向量被打包成三组不同的矩阵 ${ \{ Q_{i}\} }_{i = 1}^{h}、{ \{ K_{i}\} }_{i = 1}^{h}、{ \{ V_{i}\} }_{i = 1}^{h}$ ，然后多头注意力的处理过程如下：

$\text{Multi}\text{Head}\left( Q^{'},K^{'},V^{'} \right) = Concat\left( \text{head}_{1},\ldots,\text{head}_{h} \right)W^{0},$ (4)

$\text{where }\text{head}_{i} = Attention(Q_{i},K_{i},V_{i})$

where $Q^{'}是{ \{ Q_{i}\}}_{i = 1}^{h}的连接,K^{'},V^{'}同理$ 。 $w^{0} \in \ R^{d_{\text{model}}*d_{\text{model}}}$

2.3 Transformer其他部分：

**编码器和解码器中的其他部分。**如图4所示，为了加强信息流并获得更好的性能，在编码器和解码器的每个子层中添加了残差连接。随后是层规范化[4]。上述操作的输出可以描述为:

$\text{LayerNorm}\left( X\ + \ Attention(X) \right)$ （5）

需要注意的是，这里使用X作为自注意力层的输入，因为查询、键和值矩阵Q、K和V都来自于同一个输入矩阵X

**前馈神经网络。**在每个编码器和解码器的自注意力层之后采用前馈神经网络。具体来说，前馈神经网络由两个线性变换层和其中一个ReLU激活函数组成，可以表示为:

$\text{FFNN}(X) = \ w_{2}\sigma\left( W_{1}X \right)$ (6)

其中，w1、w2为两个线性变换层的两个参数矩阵，σ为ReLU激活函数。隐层的维数是2048。

**解码器的最后一层。**解码器的最后一层的目的是将向量的堆栈转换回单词。这是通过一个线性层和一个softmax层来实现的。线性层将向量投射到具有 $d_{\text{word}}$ 维的向量中，其中 $d_{\text{word}}$ 是词汇表中的单词数。然后，利用softmax层将该向量转换为概率。

大多数用于计算机视觉任务的Transformer都利用了原Transformer的编码器模块。简而言之，它是一种新的特征选择器，不同于卷积神经网络(CNNs)和循环神经网络(RNNs)。相比CNN只关注局部特征，变压器能够捕捉到长距离特征，这意味着Transformer可以很容易地获取全局信息。与RNN的隐状态顺序计算相比，Transformer的自注意力层和全连接层的输出可以并行计算，且易于加速，因此效率更高。因此，进一步研究Transformer在自然语言处理和计算机视觉领域的应用具有重要意义。

3. 再看NLP中的Transformer:

在Transformer出现之前，具有附加功能的循环神经网络(例如GRU[26]和LSTM[50])增强了大多数最先进的语言模型。然而，在RNN中，信息流需要从前一个隐藏状态到下一个隐藏状态的顺序处理，这就妨碍了训练过程中的加速和并行化，从而阻碍了RNN处理更长的序列或构建更大的模型的潜力。2017年，Vaswani等人[123]提出了Transformer，这是一种全新的编码器-解码器架构，完全建立在多头自注意力机制和前馈神经网络上，旨在解决序列到序列的自然语言任务(如机器翻译)，轻松获取全局依赖关系。Transformer的成功证明，仅利用注意力机制就可以获得与专注的RNN相当的性能。此外，Transformer的体系结构支持大规模并行计算，允许在更大的数据集上进行训练，从而导致大量用于自然语言处理的大型预训练模型(PTM)。

BERT[29]及其变体(如SpanBERT [63]， RoBERTa[82])是一系列基于多层Transformer编码器架构的PTM。在BERT训练前阶段，分别对图书语料库[156]和英文维基百科数据集进行两项任务:1)遮挡语言建模(MLM)，首先随机遮挡输入中的一些标记，然后训练模型进行预测;2)下一个句子预测使用成对句子作为输入，并预测第二句是否为文档中的原始句子。经过预训练后，BERT可以通过在较宽的下游任务范围内单独添加一个输出层来进行微调。更具体地说，在执行序列级任务(例如，情感分析)时，BERT使用第一个标记的表示进行分类;而对于令牌级任务(例如，名称实体识别)，所有令牌都被送入softmax层进行分类。在发布时，BERT在11个自然语言处理任务上取得了最先进的结果，在预先训练的语言模型中建立了一个里程碑。生成式预训练Transformer系列(例如，GPT [99]， GPT-2[100])是另一种基于Transformer解码器架构的预训练模型，它使用遮挡的自注意力机制。GPT系列与BERT系列的主要区别在于训练前的方式。与BERT不同，GPT系列是经过从左到右(LTR)语言建模预处理的单向语言模型。此外，句子分隔符(SEP)和分类符号(CLS)只参与GPT的微调阶段，BERT在训练前学习了这些嵌入。由于GPT的单向预训练策略，它在许多自然语言生成任务中表现出了优越性。最近，一个巨大的基于Transformer的模型，GPT-3，具有令人难以置信的1750亿个参数被引入[10]。通过对45TB压缩明文数据进行预训练，GPT-3能够直接处理不同类型的下游自然语言任务，无需微调，在许多自然语言数据集上实现了强大的性能，包括自然语言理解和生成。除了上述基于Transformer的PTMs，自Transformer引入以来，许多其他模型也被提出。因为这不是我们调查的主要主题，我们只是在表2中为感兴趣的读者列出了一些有代表性的模型。

除了在大型语料库上训练用于一般自然语言处理任务的PTMs之外，基于Transformer的模型已经应用于许多其他自然语言处理相关领域或多模态任务。BioNLP域。基于Transformer的模型已经超过了许多传统的生物医学方法。BioBERT[69]使用Transformer架构进行生物医学文本挖掘任务;SciBERT[7]是由训练Transformer针对114M涵盖生物医学和计算机科学领域的科学文章开发的，旨在更精确地执行与科学领域相关的自然语言处理任务; Huang等人[55]提出ClinicalBERT利用Transformer开发和评估临床记录的连续表示，作为一个副作用，ClinicalBERT的注意力图可以用来解释预测，从而发现不同医疗内容之间的高质量联系。Multi-Modal Tasks。由于Transformer在基于文本的NLP任务上的成功，许多研究致力于探索基于Transformer处理多模式的任务(例如，视频文本，图像文本和音频文本)的可能性。VideoBERT[115]使用一个基于CNN的模块对视频进行预处理以获得表示标记，基于此，Transformer编码器被训练学习用于下游任务的视频-文本表示，如视频标题。VisualBERT[72]和VL-BERT[114]提出了单流统一Transformer来捕获视觉元素和图像-文本关系，用于诸如视觉问答(VQA)和视觉共性推理(VCR)等下游任务。此外，一些研究(如Speech bert[24])探索了使用Transformer编码器编码音频和文本对以处理语音问答(SQA)等自动文本任务的可能性。

基于Transformer的模型在各种自然语言处理和相关任务上的快速发展显示了其结构优势和通用性。这使得Transformer成为自然语言处理之外的许多其他AI领域的通用模块。接下来的部分将集中讨论Transformer在过去两年中出现的各种计算机视觉任务中的应用。

4. 视觉Transformer：

在本节中，我们将全面回顾计算机视觉中基于Transformer的模型，包括在图像分类、高级视觉、低级视觉和视频处理中的应用。简要介绍了自注意力机制和模型压缩方法在高效Transformer中的应用。

4.1 图像分类：

受Transformer在自然语言处理方面巨大成功的启发，一些研究人员试图检验类似的模型是否可以学习有用的图像表示。图像是一种比文本维度更高、噪声更大、冗余度更高的形态，因此生成式建模比较困难。iGPT[18]和ViT[31]是两个纯粹使用Transformer进行图像分类的模型。

4.1.1 iGPT:

从原始的图像生成预训练方法开始已经有很长一段时间了，Chen等人[18]结合自监督方法的最新进展重新审视了这类方法。该方法包括一个训练前阶段，然后是一个微调阶段。在训练前，我们探讨了自回归和BERT目标。此外，在自然语言处理中，使用序列转换体系结构代替语言标记来预测像素。当与早期停止结合使用时，预训练可以被视为一个有利的初始化或正则化。在微调过程中，他们将一个小的分类头添加到模型中，用于优化分类目标，并适应所有的权重。

给定一个由高维数据X组成的未标记数据集X = (x1,…,xn)。他们通过最小化数据的负对数似然来训练模型:

$L_{\text{AR}} = E\lbrack - log(p(x))\rbrack$ (7)

其中p(x)是图像数据的密度，可以建模为:

$\ \prod_{i = 1}^{n}{p(x_{\pi_{i}}|x_{\pi_{1}},\ldots,x_{\pi_{i - 1}},\theta)}$ (8)

他们还考虑了BERT目标，标记一个子序列样本M⊂(1,n),每个索引独立且有0.15的概率出现在 M中， M叫做BERT遮挡,和模型训练通过最小化的负对数似然"遮挡"元素 $x_{M}$ ，以 "非遮挡"的 $\ M x_{\lbrack 1,n\rbrack\backslash M}$ 为条件:

$\ M ) ] L_{\text{BERT}} = EE\sum_{i \in M}^{}{\lbrack - \log{p\left( x_{i}|x_{\lbrack 1,n\rbrack\backslash M} \right)}\rbrack}$ (9)

在预训练中，他们选择 $L_{\text{AR}}\ 或者\ L_{\text{BERT}}$ 中的一个，并尽量降低损失。

他们使用GPT-2 [100]公式的Transformer解码器块。特别地，层规范化先于注意力和多层感知器(MLP)操作，并且所有操作都严格地位于残差路径上。跨序列元素的唯一混合发生在注意力操作中，为了确保在训练增强现实目标时进行适当的调节，他们将标准的上三角掩模应用于n×n矩阵的注意力逻辑。当使用BERT目标时，不需要注意逻辑遮挡:在将内容嵌入应用到输入序列之后，它们将位置归零。

在最后的转换器层之后，他们应用层规范化，并从输出中学习投影，以对每个序列元素的条件分布进行参数化。当训练BERT时，他们只是简单地忽略未加遮挡位置的逻辑。

在微调过程中，它们平均汇集最终层规范化的输出，跨越序列维度提取每个示例特征的三维向量:

他们从 $f_{L}$ 类逻辑中学习投影，用于最小化交叉熵损失 $L_{\text{CLF}}$ 。在实践中，他们根据经验发现联合目标 $L_{\text{GEN}} + L_{\text{CLF}}$ 的效果更好，其中 $L_{\text{GEN\ }} \in \left\{ L_{\text{AR}},L_{\text{BERT}} \right\}$

4.1.2 ViT:

最近，Dosovitskiy等人[31]提出了一种纯净的Transformer模型，即Vision Transformer(ViT)，当直接应用于图像块序列时，它在图像分类任务中表现良好。他们尽可能地遵循原始Transformer的设计。图5显示了ViT的框架。

为了处理2D图像，图像 $\in R^{H*W*C}$ 被重新成形为一系列平坦的2D块 $x_{p} \in R^{N*(P^{2}*C)}$ 。(H，W)是原始图像的分辨率, (P，P)是每个图像块的分辨率， $\ \frac{\text{HW}}{P^{2}}$ 则是Transformer的有效序列长度。由于Transformer在其所有层中使用恒定的宽度，可训练的线性投影将每个矢量化路径映射到模型维度D，其输出被称为块嵌入。

类似于BERT的[class]记号，可学习的嵌入被用于嵌入块的序列，其在Transformer编码器输出端的状态用作图像表示。在预训练和微调过程中，分类头的大小相同。此外，1D位置嵌入被添加到块嵌入以保留位置信息。他们探索了位置嵌入的不同2D感知变体，这并没有获得比标准1D位置嵌入更大的收益。联合嵌入作为编码器的输入被切断。值得注意的是，视觉Transformer仅采用标准Transformer的编码器，并且Transformer编码器的输出后面是MLP磁头。

通常情况下，ViT首先在大型数据集上进行预训练，并针对较小的下游任务进行微调。为此，移除预包含的预测头，并附加一个零初始化的D × K前馈层，其中K是下游类别的数量。相比于预训练，通常时是对高分辨率微调有益的。当输入更高分辨率的图像时，图片快大小保持不变，这导致更大的有效序列长度。视觉Transformer可以处理任意序列长度，然而，预先训练的位置嵌入可能不再有意义。作者根据它们在原始图像中的位置对预先训练的位置嵌入进行插值。请注意，分辨率调整和图片块提取是手动将图像2D结构的感应偏差注入视觉Transformer的唯一点。

当在中型数据集(如ImageNet)上进行训练时，这种模型产生的结果一般，精度比同等规模的ResNets低几个百分点。Transformer缺乏CNNs固有的一些归纳偏差，如翻译等方差和局部性，因此在数据量不足的情况下训练时不能很好地概括。然而，如果模型是在大数据集(14M-300M图像)上训练的，图片就会改变。作者发现大规模训练胜过归纳偏见。Transformer在经过足够规模的预训练并转移到数据点较少的任务时，可以获得出色的效果。在JFT300M数据集上预处理的视觉Transformer接近或超过了多种图像识别基准的先进水平，在ImageNet上达到88.36%的准确率，在CIFAR-10上达到99.50%，在CIFAR-100上达到94.55%，在VTAB套件的19项任务中达到77.16%。iGPT和ViT的详细结果如表3所示。

总之，iGPT回忆了生成性预训练方法，并将其与自监督方法相结合，结果并不十分令人满意。ViT取得了更好的结果，尤其是当它使用更大的数据集(JFT-300)时。但是ViT的结构和NLP中的Transformer基本相同，如何表述块内和块间的关系仍然是一个具有挑战性的问题。此外，相同大小的块在ViT中被同等对待。众所周知，每个块的复杂性是不同的，这个特点现在还没有被充分利用。

4.2 高级视觉：

近来，人们对采用Transformer进行高级计算机视觉任务越来越感兴趣，例如目标检测[15，155，23]，车道检测[81]和分割[129，126]。在本节中，我们对这些方法进行了回顾。

4.2.1 目标检测：

根据采用Transformer架构的模块，基于Transformer的目标检测方法可以粗略地分为基于颈部、基于头部和基于框架的方法。

像特征金字塔网络(FPN) [77]这样的多尺度特征融合模块(在现代检测框架中被称为颈部)已经被广泛用于目标检测以获得更好的检测性能。张等人[145]提出传统方法不能交互跨尺度特征，因此提出特征金字塔变换(FPT)来充分利用跨空间和尺度的特征交互。FPT由自transformer、地transformer和渲染transformer三种类型的transformer组成，分别对特征金字塔的自层次、自顶向下和自底向上路径的信息进行编码。FPT基本上利用Transformer中的自注意力模块来增强特征金字塔网络的特征融合。

预测头在目标检测器中起着重要的作用。现有的检测方法通常利用单一的视觉表示(例如，边界框和角点)来预测最终结果。Chi等人[23]提出了桥接视觉表征(BVR)，通过多头注意模块将不同的异质表征组合成一个单一的表征。具体地，主表示被视为查询输入，辅助表示被视为键输入。通过类似于Transformer中的注意力模块，可以获得用于主表示的增强特征，这桥接了来自辅助表示的信息，并且有利于最终的检测性能。

与上述利用Transformer增强现代探测器特定模块的方法不同，卡里昂[15]重新设计了物体探测框架，并提出了detection transformer (DETR)，这是一种简单且完全端到端的物体探测器。DETR将目标检测任务视为一个直观的集合预测问题，摆脱了传统的手工制作组件像anchor生成和非最大抑制(NMS)后处理。如图6所示，DETR从CNN主干开始，从输入图像中提取特征。为了用位置信息来补充图像特征，在被馈送到编码-解码转换器之前，固定位置编码被添加到展平特征。transformer解码器使用来自编码器的嵌入以及N个学习的位置编码(对象查询)，并产生N个输出嵌入，其中N是图像中预先定义的参数和最大数量的对象。最终的预测是用简单的前馈网络(FFN)计算的，它包括边界框坐标和类别标签，以指示对象的特定类别或没有对象。不像原来的Transformer顺序产生预测，DETR同时并行解码N个对象。DETR采用一种二分匹配算法来分配预测对象和真实对象。如等式所示。(11)中，Hungarian损失被用来计算所有匹配对象对的损失函数。

DETR在目标检测方面表现出令人印象深刻的性能，其准确性和速度与COCO基准上流行且公认的更快的R-CNN基线相当。

DETR是一个基于Transformer的物体检测框架的新设计，并启发社区开发完全端到端的检测器。然而，普通的DETR也带来了一些挑战，例如，更长的训练时间表和小物体的不良表现。Zhu等人[155]提出的可变形是解决上述问题的一种常用方法，大大提高了检测性能。变形注意模块不是通过Transformer中的原始多头注意来查看图像特征地图上的所有空间位置，而是关注参考点周围的一小组关键位置。这样，计算复杂度大大降低，也有利于快速收敛。更重要的是，可变形的注意模块可以容易地应用于融合多尺度特征。变形DETR比DETR的性能好，训练成本低10倍，推理速度快1.6倍。一些额外的改进也适用于可变形DETR，包括有效的迭代包围盒细化方法和两阶段方案，这导致进一步的性能增益。

针对计算复杂度较高的问题，Zhang等人[153]提出了一种自适应聚类变换器(ACT)来降低预先训练的的计算开销，无需任何训练过程。ACT使用局部敏感哈希方法自适应地对查询特征进行聚类，并将注意力输出广播给由所选原型表示的查询。通过用建议的ACT代替预先训练的DETR模型的自我注意力模块而无需任何再训练，计算成本可以大大降低，而精度几乎没有下降。此外，通过利用多任务知识提取(MTKD)方法，可以进一步降低性能下降，该方法利用原始transformer提取具有几个微调时期的ACT模块。

Sun等[117]研究了模型的慢收敛问题，揭示了Transformer解码器中的交叉注意模块是其背后的主要原因。为此，提出了DETR的仅编码器版本，并且在检测精度和训练收敛方面实现了相当大的改进。此外，为了更稳定的训练和更快的收敛，设计了一种新的二分匹配方案。提出了两种基于Transformer的集合预测模型，即TSP-FCOS模型和TSPRCNN模型，这两种模型比原DETR模型具有更好的性能。

受自然语言处理中预训练transformer方案的启发，Dai等人[28]提出了一种无监督预训练(UP-DETR)的目标检测方法。具体而言，提出了一种新的无监督前置任务随机查询块检测来预处理DETR模型。通过该方案，IP-DETR在相对较小的数据集上，即PASCAL VOC，大幅度提高了检测精度。在训练数据充足的COCO基准上，UP-DETR仍优于DETR，证明了无监督预训练方案的有效性。

4.2.2 分割：

DETR [15]可以通过在解码器上附加一个遮挡头来自然地扩展全景分割任务，并获得有竞争力的结果。Wang等人[126]提出了Max-DeepLab，利用遮挡变换直接预测全景图像分割结果，不需要盒子检测等代理子任务。与DETR类似，Max-DeepLab以端到端的方式简化了全景分割任务，并直接预测了一组不重叠的遮挡和相应的标签。利用PQ损失来训练模型。此外，与以前在CNN主干上堆叠transformer的方法不同，Max-DeepLab采用了双路框架，以便更好地将CNN与transformer结合起来。

Wang等人[129]提出了一种基于变换的视频实例分割(VisTR)模型，该模型以一系列图像作为输入，并产生相应的实例预测结果。提出了一种实例序列匹配策略，将预测与真值相匹配。为了获得每个实例的遮挡序列，VisTR利用实例序列分割模块来累积来自多个帧的遮挡特征并且用3D CNN分割遮挡序列。

还有一种尝试是将Transformer用于细胞实例分割[95]，其基于DETR全景分割模型。所提出的Cell-DETR还增加了跳跃连接，以在分割头中桥接CNN主干和CNN解码器的特征，以获得更好的融合特征。Cell-DETR展示了显微图像细胞实例分割的最新性能。

Zhao等[150]设计了一种用于处理点云的新型Transformer架构(Point Transformer)。所提出的自注意力层对于点集的排列是不变的，因此适用于点集处理任务。Point Transformer)在三维点云语义分割任务中表现出很强的性能。

4.2.3 车道检测：

在PolyLaneNet [119]的基础上，Liu等人[81]提出了利用Transformer网络学习全局上下文来提高弯道检测的性能。与PolyLaneNet相似，该方法(LSTR)将车道检测视为用多项式拟合车道的任务，并使用神经网络来预测多项式的参数。为了捕捉车道和全局环境的细长结构，LSTR在体系结构中引入了Transformer网络，以处理由卷积神经网络提取的低级特征。此外，LSTR使用Hungarian损失优化网络参数。如[81]所示，LSTR只有PolyLaneNet网络参数的0.2倍，和PolyLaneNet相比高2.82%的精度和3.65倍的FPS。Transformer网络、卷积神经网络和Hungarian损失的结合实现了一个微小、快速、精确的车道检测框架。

4.3 低级视觉：

除了高级视觉任务，很少有工作将Transformer应用于低级视觉领域，如图像超分辨率、生成等。与输出为标签或盒子的分类、分割和检测相比，低层任务往往以图像作为输出(如高分辨率或去噪图像)，这更具挑战性。

Parmar等人[92]在概括Transformer模型方面迈出了第一步，以制定图像转换和生成任务，并提出了图像Transformer。图像Transformer由两部分组成:用于提取图像表示的编码器和用于生成像素的解码器。对于值为0-255的每个像素，学习256 × d维嵌入，用于将每个值编码为d维向量，该向量作为编码器的输入。编码器和解码器的结构与[123]中的相同。解码器中各层的详细结构如下图7所示：

每个输出像素 $q^{'}$ 通过计算输入像素q和先前生成的像素m1、m2，…利用位置嵌入p1、p2，…对于图像条件生成，例如超分辨率和修复，使用编码器-解码器架构，其中编码器的输入是低分辨率图像或损坏的图像。对于无条件和有条件生成(即图像噪声)，只有解码器用于输入噪声矢量。由于解码器的输入是以前生成的像素，在生成高分辨率图像时会带来很大的计算成本，因此提出了一种局部自注意力方案，该方案只使用最近生成的像素作为解码器的输入。结果，图像转换器在图像生成和翻译任务上可以达到与基于CNN的模型的竞争性能，这表明了基于Transformer的模型在低水平视觉任务上的有效性。

与使用每个像素作为Transformer模型的输入相比，最近的工作使用图片快(像素集)作为输入。Yang等人[135]提出了用于图像超分辨率的纹理变换网络(TTSR)。他们在基于参考的图像超分辨率问题中使用Transformer架构，其目的是将相关纹理从参考图像转移到低分辨率图像。以低分辨率图像和参考图像为查询Q和关键K，相关性 $r_{i,j}$ 的计算通过每一个图像块Q中的 $q_{i}和K中的K_{i}$ 用如下公式计算：

$r_{i,j} = \ < \frac{q_{i}}{||q_{i}||},\frac{k_{i}}{||k_{i}||} >$ (12)

然后提出了一种高分辨率特征选择模块，根据参考图像选择高分辨率特征V，利用相关性匹配低分辨率图像。计算方法是:

$h_{i} = \ \underset{i}{\arg\max}r_{i,j}$ (13)

那么最相关的图片块是 $t_{i} = \ v_{\text{hi}}$ ，其中T中的 $t_{i}$ 是转移的特征。之后，软注意力模块用于将V转换为低分辨率特征f。软注意力可以通过以下方式计算：

$s_{i} = \ \max_{i}r_{i,j}$ (14)

因此，将高分辨率纹理图像转换为低分辨率图像的等式可以表述为:

$F_{\text{out}} = F + Conv(Concat(F,T))\bigodot S$ (15)

其中 $F_{\text{out}}$ 和F代表低分辨率图像的输出和输入特征，S代表软注意，T代表从高分辨率纹理图像转移的特征。通过引入基于Transformer的架构，TTSR可以成功地将纹理信息从高分辨率参考图像传输到低分辨率图像，以完成超分辨率任务。

上述方法在单个任务上使用Transformer模型，而等人[17]提出图像处理Transformer(IPT)通过使用大规模预训练来充分利用Transformer的优势，并在包括超分辨率、去噪和降额在内的多个图像处理任务中实现最先进的性能。如图8所示。IPT由多头、编码器、解码器和多尾组成。针对不同的图像处理任务，引入了多头多尾结构和任务嵌入。这些特征被分成小块以放入编码器-解码器结构中，然后输出被整形为具有相同大小的特征。由于Transformer模型在大规模预训练方面显示出优势，IPT使用ImageNet数据集进行预训练。具体来说，从ImageNet下载的图像通过手动添加噪声，雨带或者下采样降级为生成的损坏图像，然后将退化图像作为IPT的输入，将干净图像作为输出的优化目标。为了提高IPT模型的泛化能力，引入了自监督方法。然后使用相应的头部、尾部和任务嵌入对每个任务的训练模型进行微调。IPT极大地提高了图像处理任务的性能(例如，图像去噪任务中的2dB)，这证明了基于Transformer的模型在低层视觉领域的巨大潜力。

4.4 视频处理：

Transformer在基于序列的任务上表现惊人，尤其是在NLP任务上。在计算机视觉中，空间和时间维度信息在视频任务中受到青睐。因此，Transformer被应用于许多视频任务，如帧合成[83]，动作识别[41]和视频检索[80]。

4.4.1 高级视频处理:

**行人行为识别。**视频人体动作任务是指在视频中识别和定位人体动作。背景在识别人类行为中起着至关重要的作用。Rohit等人提出动作转换器[41]来模拟感兴趣的人和周围事物之间的潜在关系。具体来说，I3D被用作提取高级特征映射的主干。通过感兴趣区域池从中间特征图中提取的特征被视为查询()。从中间特征计算键值（K）。自注意力机制由三部分组成，并输出分类和回归预测。Lohit等人[84]提出了一个可解释的可微模块，称为时空Transformer网络，以减少类内方差和增加类间方差。Fayyaz和 Gall提出了一种时空Transformer，用于在弱监督设置下执行动作识别任务。

**人脸对齐。**基于视频的人脸对齐任务旨在定位面部标志。时间相关性和空间信息对最终性能很重要。然而，前一种方法不能捕获连续帧上的时间信息和静止帧上的补充空间信息。因此，Liu等人[80]使用双流Transformer网络来分别学习时间和空间特征。两个流以端到端的方式被联合优化，并且特征被加权以获得最终的预测。

**视频检索。**基于内容的视频检索的关键是找到视频之间的相似性。要克服这些缺点，只需利用视频级特征。Shao等人[110]建议使用Transformer来建模范围语义相关性。此外，引入监督对比学习策略进行硬否定挖掘。基准数据集上的结果证明了性能和速度优势。Gabeur等人[39]提出了一种多模态Transformer来学习不同的跨模态线索，从而表示视频。

**动作识别。**动作识别是指识别一个群体中的一个人的动作。以前解决这个问题的方法是基于单个人的位置。Gavrilyuk等人提出了一个actor-transformer [40]架构来学习表示。actor-transformer将2D和3D网络生成的静态和动态表示作为输入。Transformer的输出是预测的动作。

视频目标检测。 为了从视频中检测对象，需要全局和局部信息。Chen等人介绍了内存增强的全局-局部聚合(MEGA) [19]来捕获更多的内容。代表性特征提高了整体性能，并解决了无效和不足的问题。Yin等人[138]提出了一种时空transformer来聚集空间和时间信息。与另一个空间特征编码组件一起，这两个组件在3D视频对象检测任务中表现良好。

**多任务学习。**未剪辑的视频通常包含许多与目标任务无关的帧。因此，挖掘相关信息，去除冗余信息至关重要。为了应对未剪辑视频上的多任务学习，Seong等人采用视频多任务Transformer网络[109]来提取信息。对于CoVieW数据集，任务是场景识别、动作识别和重要性分数预测。ImageNet和Places365上的两个预训练网络提取场景特征和对象特征。在类别转换矩阵(CCM)的帮助下，多任务Transformer被堆叠以融合特征。

4.4.2 低级视频处理：

**帧/视频合成。**帧合成任务是指在两个连续帧之间或在一个帧序列之后合成帧。视频合成任务旨在合成视频。Liu等人提出了Conv Transformer [83]，它包括五个部分:特征嵌入、位置编码、编码器、查询解码器和合成前馈网络。与基于LSTM的作品相比，Conv Transformer以更具可并行性的架构实现了更好的效果。Schatz等人[108]使用一个递归的Transformer网络从新的角度合成人类行为。

**视频修复。**视频修复任务旨在完成帧中缺失的区域.这项具有挑战性的任务需要沿着空间和时间维度合并信息。Zeng等人为此任务提出了一个时空Transformer网络[144]。将所有输入帧作为输入，并并行填充它们。该网络的优化采用时空对抗损失函数。

4.4.3 多模态：

**视频字幕/摘要。**视频字幕任务的目标是为未剪辑的视频生成文本。事件检测和描述模块是两个主要部分。Zhou等人[154]提出了一种端到端优化的transformer来解决密集视频字幕任务。编码器将视频转换成表示形式。提议解码器从编码中生成事件提议。字幕解码器用建议屏蔽编码并输出描述。Bilkhu等人[9]使用C3D和I3D网络提取特征，并使用transformer生成预测。该算法在单一总结任务和密集总结任务上都表现良好。Li等人[71]利用基于纠缠注意力(ETA)模块的transformer来处理图像字幕任务。Sun等人[29]提出了一个视觉语言框架来学习没有监督的代表。该模型可以应用于许多任务，包括视频字幕、动作分类等。

4.5 计算机视觉的自注意力：

在上面的章节中，我们已经回顾了将Transformer架构用于可视化任务的方法。自注意力是transformer的关键部分。在这一节中，我们深入研究了基于自注意力的方法在计算机视觉中的挑战性任务，例如，语义分割，实例分割，对象检测，关键点检测和深度估计。我们从第4.5.1节中的自注意力算法开始，并在第4.5.2节中总结了将自注意力用于计算机视觉的现有应用。

4.5.1 自注意力的一般公式：

用于机器翻译的自注意力模块[123]通过关注所有位置并在嵌入空间中对它们进行加权求和来计算序列中一个位置处的响应，这可以被视为计算机视觉中可应用的非局部过滤操作[128，11]的一种形式。

我们遵循惯例[128]制定自注意力模块。给定输入信号(例如，图像、序列、视频和特征) $\in R^{n \times c}$ 其中n = h × w表示特征中的像素数，c表示通道数。输出信号通过如下公式计算：

$y_{i} = \ \frac{1}{C(x_{i})}\ \sum_{\forall\ j}^{}{f(x_{i},x_{j})g(x_{j})}$ (16)

其中) $x_{i} \in R^{1 \times c}$ 和 $y_{i} \in R^{1 \times c}$ 分别表示输入信号X和输出信号Y的位置(例如，空间、时间和时空)。下标j是枚举所有位置的索引。成对函数f计算表示关系，如i和所有j之间的亲和力。函数g计算位置j处输入信号的表示。响应用因子 $C(x_{i})$ 归一化。

请注意，成对函数f有许多选择，例如，高斯函数的简单扩展可用于计算嵌入空间中的相似性, 因此，函数f可以表示为

$f\left( x_{i},x_{j} \right) = \ e^{\theta(x_{i}){\phi(x_{j})}^{T}}$ (17)

其中θ和φ可以是任何嵌入层。如果我们考虑线性嵌入形式的θ，φ，g， $\theta(X) = \ X \bullet W_{\theta}$ ， $\phi(X) = \ X \bullet W_{\phi}$ ， $\ X \bullet W_{g}$ 其中 $W_{\theta} \in R^{c \times d_{k}}$

$W_{\phi} \in R^{c \times d_{\phi}}$ ， $W_{g} \in R^{c \times d_{v}}$ .并将归一化因子设置为 $\sum_{\forall\ j}^{}{f\left( x_{i},x_{j} \right)}$

则公式 16可改写为:

$y_{i} = \ \frac{e^{x_{i}w_{\theta,i}w_{\theta,j}^{T}x_{j}^{T}}}{\sum_{j}^{}e^{x_{i}w_{\theta,i}w_{\theta,j}^{T}x_{j}^{T}}}x_{j}w_{g,j}$ (18)

其中 $W_{\theta,i} \in R^{c \times 1}$ 是权值矩阵 $W_{\theta}$ 的第i行。对于给定的一个下标i， $\frac{1}{C(x_{i})}\text{\ f}\left( x_{i},x_{j} \right)$ 成为沿维度j的softmax输出，因此公式可进一步改写为:

$\ \text{soft}\max\left( XW_{\theta}W_{\phi}^{T}X \right)g(X)$ (19)

其中 $\in R^{n \times c}$ 是与X大小相同的输出信号，与transformer模型的查询、键和值的表示 $XW_{q}\text{\ \ }K = XW_{k}\text{\ \ }V = XW_{v}$ 相比较，一旦 ${W_{q} = \text{\ W}}_{\text{θ\ }}\ {W_{k} = \text{\ W}}_{\phi}\ {W_{v} = \text{\ W}}_{g}$ 公式19可以用如下公式表示：

$Y = \ \text{soft}\max\left( QK^{T} \right)V = Attention(Q,K,V)\ $ (20)

自注意力模块为机器翻译提出的与以上为计算机视觉提出的非局部过滤操作完全相同。通常，计算机视觉自注意力模块的最终输出信号将被包装为:

$Z = YW_{Z} + X$ (21)

其中Y是通过公式19产生的。如果 $W_{Z}$ 初始化为零，这个自注意力模块可以插入到任何现有的模型中，而不会破坏它的初始行为。

4.5.2 视觉任务应用：

自注意力模块被认为是卷积神经网络体系结构的一个构件，它具有与大感受野有关的低标度特性。构建模块总是用在网络的顶部，以捕捉计算机视觉任务的远程交互。接下来，我们回顾了提出的基于自注意力的图像任务方法，如图像分类、语义分割和目标检测。

**图像分类。**用于分类的可训练注意力包括两个主流:关于使用图像区域的硬注意力[3，87，134]和生成非刚性特征图的软注意力[125，60，43，102]。Ba等人[3]首先提出了用于图像分类任务的视觉注意项，并利用注意来选择输入图像中的相关区域和位置，这也可以降低所提出模型的计算复杂度，减小输入图像的大小。AG-CNN [42]建议通过关注热点图从全局图像中裁剪出一个子区域，用于医学图像分类。SENet [54]提出了软自注意力来重新加权卷积特征的信道响应，而不是使用硬注意力和重新校准特征图的裁剪。Jetley等人[60]使用由相应的估计器生成的注意力图来重新加权深层神经网络中的中间特征。Han等[43]利用属性感知注意力来增强CNN的表征能力。

**语义分割。**PSANet [151]、OCNet [139]、DANet [38]和CFNet [147]是第一批将自注意力模块引入语义分割任务的作品，它们考虑并增强了上下文像素之间的关系和相似性[146、74、46、89、130]。DANet [38]同时利用空间和通道维度上的自注意力模块。A2Net [20]提出将像素分组为一组区域，然后通过将区域表示与生成的注意力权重聚合来增加像素表示。为了减轻自注意力模块中计算像素相似度带来的大量参数，提出了几个工作[140，59，58，75，66]来提高自注意力模块的语义分割效率。例如，CGNL [140]应用径向基函数核函数的泰勒级数来近似像素相似性。CCNet [59]通过两个连续的交叉注意来近似原始的自注意力方案。ISSA [58]建议将密集亲和矩阵分解为两个稀疏亲和矩阵的乘积。还有其他相关的工作使用基于注意力的图形推理模块[76，21，75]来增强局部和全局表示。

**目标检测。**Ramachandran等人[102]提出了一个基于注意力的层来建立一个完全注意力模型，它在COCO [79]基准上优于卷积神经网络。GCNet [13]发现，对于图像内的不同查询位置，由非局部操作建模的全局上下文几乎是相同的，并提出将简化公式和SENet [54]统一为全局上下文建模的通用框架[73，52，34，93]。V o .等人[124]设计了一个双向操作，从一个查询位置收集信息并将其分发到所有可能的位置。Hu等人[53]提出了一种基于自注意力的关系模块，通过一组对象的外观特征之间的相互作用来同时处理一组对象。Chenget al .提出了RelationNet++ [23]，它带有一个基于注意力的解码器模块，将其他表示桥接成一个基于单一表示格式的典型对象检测器。

**其他视觉任务。**Zhang等人[148]提出了分辨率方向的注意力模块，以学习用于精确姿态估计的增强的分辨率方向的特征图。Huang等人[57]提出了一种基于transformer的网络[56]，用于3D手-物体姿态估计。Chang等人[16]借助于基于注意力机制的特征融合块，提高了关键点检测模型的准确性并加速了其收敛。

4.6 高效Transformer：

尽管Transformer模型在各种任务中取得了成功，但仍然需要高内存和计算资源，这阻碍了在资源有限的设备(例如，移动电话)上的实现。在这一部分中，我们回顾了压缩和加速transformer模型以实现高效的研究，包括网络剪枝、低秩分解、知识提炼、网络量化、压缩架构设计。表4列出了一些压缩基于transformer的模型的代表性工作。

4.6.1 修剪和分解:

在基于transformer的预训练模型(如BERT)中，多个注意力操作被并行以独立地模拟不同标记之间的关系[123，29]，尽管所有的头部对于特定的任务都是必需的。Michel等人[85]凭经验观察到，在测试时，大部分注意力可以被转移，而不会显著影响性能。不同层所需的头数量各不相同，对于某些层来说，一个头就足够了。考虑到注意力头上的冗余，在[85]中定义了重要性分数来估计每个头对最终输出的影响，并且可以移除不重要的头以进行有效部署。Dalvi等人[96]从两个角度进一步分析了预训练transformer模型中的冗余，即一般冗余和特定任务冗余。遵循彩票假设等[36]，Prasanna等[96]分析了BERT中的彩票，并表明良好的子网络也存在于基于transformer的模型中。[96]中减少了FFN层和注意力头，以实现高压缩率。

除了transformer模型的宽度，深度，即层数也可以减少，以加快推理过程[32]。不同于transformer模型中不同的注意力头可以并行计算，不同的层必须顺序计算，因为下一层的输入取决于前一层的输出。Fan等人[32]提出了一种分层策略来规范模型的训练，然后在测试阶段将整个层一起移除。考虑到不同设备中的可用资源可能不同，Hou等人[51]提出自适应地减小预定义的transformer模型的宽度和深度，并且同时获得具有不同尺寸的多个模型。重要的注意力头和神经元通过一种重新布线机制在不同的子网中共享。

除了直接丢弃transformer模型中部分模块的剪枝方法之外，矩阵分解旨在基于低秩假设用多个小矩阵来逼近大矩阵。例如，Wang等人[131]在transformer模型中分解标准矩阵乘法，实现更有效的推理。

4.6.2 知识蒸馏：

知识蒸馏旨在通过从巨型教师网络转移知识来训练学生网络[48，12，2]。与教师网络相比，学生网络通常具有更薄、更浅的体系结构，更容易部署在资源有限的资源上。神经网络的输出和中间特征也可以用来将有效的信息从教师传递给学生。专注于transformer模型，Mukherjee等人[88]使用预先训练的BERT [29]作为老师来指导小模型的训练，在大量未标记数据的帮助下，王等人[127]在预先训练的教师模型中训练学生网络以模仿自注意力层的输出。值与值之间的点积作为一种新的知识形式被引入来指导学生。在[127]中还引入了一名教师助理[86]，这缩小了大型预先训练的transformer模型和紧凑的学生网络之间的差距，使模拟更加容易。考虑到transformer模型中的各种类型的层(即，自注意力层、嵌入层、预测层)，Jiao等人[62]设计了不同的目标函数来将知识从教师转移到学生。例如，学生模型嵌入层的输出是通过均方误差损失来模拟教师模型的输出。一个可学习的线性变换也被用来将不同的特征映射到同一个空间。对于预测层的输出，采用KL散度来度量不同模型之间的差异。

4.6.3 量化：

量化旨在减少代表网络权重或中间特征的位数[122，137]。通用神经网络的量化方法已经得到了很好的讨论，并获得了与原始网络相当的性能[91，37，6]。最近，如何对transformer模型进行特殊量化备受关注[8，33]。Shridhar等人[112]建议将输入嵌入到二进制高维向量中，然后使用二进制输入表示来训练二进制神经网络。Cheong等人[22]通过低位(例如4位)表示来表示transformer模型中的权重。Zhao等[152]对各种量化方法进行了实证研究，表明k-means量化具有巨大发展潜力。针对机器翻译任务，Prato等人[97]提出了一种完全量化的transformer，这是第一个8位质量模型，没有任何翻译质量损失，如论文所述。

4.6.4 紧凑结构设计：

除了将预先定义的transformer模型压缩成小模型之外，一些研究试图直接设计紧凑的模型[132，61]。Jiang等[61]提出了一种新的基于跨度的动态卷积模型，将全连通层和卷积层结合起来，简化了自注意力的计算，如图9所示。来自不同标记的表示之间的局部相关性是通过卷积运算来计算的，这比标准transformer中的密集全连接层要有效得多。深度方向的卷积也被用来进一步降低计算成本。文献[1]中提出了有趣的汉堡层，利用矩阵分解来替代原有的自注意力层。矩阵分解可以比标准的自注意力操作更有效地计算，同时很好地反映不同标记之间的依赖性。

transformer模型中的自注意力操作计算给定序列(图像识别任务[31]中的块)中不同输入令牌的表示之间的点积，其复杂度为O(N)，其中N是序列的长度。最近，大量的方法集中在降低复杂度到O(N)，使transformer模型可扩展到长序列。例如，Katharopoulos等人[64]将自注意力近似为核特征映射的线性点积，并通过递归神经网络揭示标记之间的关系。Zaheer等人[143]将每个标记视为图中的一个顶点，两个标记之间的内积计算表示为一条边。受图论[113，25]的启发，各种稀疏图被组合在一起以近似transformer模型中的密集图，这也实现了O(N)复杂度。从理论的角度来看，Y un等人[141]证明了一个具有O(N)复杂度的稀疏变换器足以反映令牌之间的任何一种关系，并且可以进行泛逼近，为进一步研究具有O(N)复杂度的transformer提供了理论上的保障。

5. 结论和未来展望:

与卷积神经网络相比，Transformer因其优越的性能和巨大的潜力成为计算机视觉领域的研究热点。为了发现和利用Transformer的能力，正如调查中所总结的，近年来已经提出了许多解决方案。这些方法在广泛的视觉任务上表现出优异的性能，包括基本图像分类、高级视觉、低级视觉和视频处理。然而，用于计算机视觉的Transformer的潜力还没有被充分开发，还有几个挑战有待解决。

虽然研究人员已经提出了许多基于Transformer的模型来处理计算机视觉任务，但这些工作只是初步的解决方案，还有很大的改进空间。例如，ViT [31]中的Transformer架构遵循NLP [123]的标准Transformer。专门针对CV的改进版还有待探索。此外，Transformer在上述任务之外的更多任务上的应用也是必需的。

此外，大多数现有的可视化Transformer模型都是为处理单一任务而设计的。许多NLP模型，如GPT-3 [10]，已经显示了Transformer在一个模型中处理多个任务的能力。CV领域的IPT [17]还能够处理多个低水平视觉任务，如超分辨率、图像去噪和去雾。我们认为，更多的任务只能在一个模型中涉及。

最后，同样重要的是，为CV开发高效的Transformer模型也是一个公开的问题。Transformer模型通常很大，计算量也很大，例如，基本的ViT模型[31]需要18B的浮点运算来处理图像。相比之下，轻量级CNN模型GhostNet [44，45]仅用约600M FLOPs就能实现类似的性能。虽然已经提出了几种压缩Transformer的方法，但是它们的复杂性仍然很大。而这些原本是为NLP设计的方法，可能并不适合CV。因此，高效的Transformer模型是在资源有限的设备上部署可视化Transformer的代理。

6. 参考文献：

[1] Anonymous. Is attention better than matrix decomposition?In Submitted to International Conference on Learning Representations, 2021. under review. 15

[2] Jimmy Ba and Rich Caruana. Do deep nets really need to be deep? Advances in neural information processing systems,27:2654–2662, 2014. 14

[3] Jimmy Ba, Volodymyr Mnih, and Koray Kavukcuoglu.Multiple object recognition with visual attention. In International Conference on Learning Representations, 2014.13

[4] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton.Layer normalization. arXiv preprint arXiv:1607.06450, 2016. 4

[5] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014. 1

[6] Yu Bai, Yu-Xiang Wang, and Edo Liberty. Proxquant:Quantized neural networks via proximal operators. arXiv preprint arXiv:1810.00861, 2018. 14

[7] Iz Beltagy, Kyle Lo, and Arman Cohan. Scibert: A pretrained language model for scientific text. arXiv preprint arXiv:1903.10676, 2019. 5

[8] Aishwarya Bhandare, Vamsi Sripathi, Deepthi Karkada,Vivek Menon, Sun Choi, Kushal Datta, and Vikram Saletore. Efficient 8-bit quantization of transformer neural machine language translation model. arXiv preprint arXiv:1906.00532, 2019. 14

[9] Manjot Bilkhu, Siyang Wang, and Tushar Dobhal. Attention is all you need for videos: Self-attention based video summarization using universal transformers. arXiv preprint arXiv:1906.02792, 2019. 12

[10] Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al.Language models are few-shot learners. arXiv preprint arXiv:2005.14165, 2020. 1, 5, 15

[11] Antoni Buades, Bartomeu Coll, and J-M Morel. A nonlocal algorithm for image denoising. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 60–65, 2005. 12

[12] Cristian Bucilua, Rich Caruana, and Alexandru Niculescu-Mizil. Model compression. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 535–541, 2006. 14

[13] Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, and Han Hu. Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In Proceedings of the IEEE International Conference on Computer Vision Workshops, 2019.13

[14] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.End-to-end object detection with transformers. arXiv preprint arXiv:2005.12872, 2020. 2

[15] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko.End-to-end object detection with transformers. In ECCV,2020. 7, 8, 9

[16] Yuan Chang, Zixuan Huang, and Qiwei Shen. The same size dilated attention network for keypoint detection. In International Conference on Artificial Neural Networks,pages 471–483, 2019. 13

[17] Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yiping Deng, Zhenhua Liu, Siwei Ma, Chunjing Xu, Chao Xu,and Wen Gao. Pre-trained image processing transformer.arXiv preprint arXiv:2012.00364, 2020. 2, 10, 15

[18] Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, and Ilya Sutskever. Generative pretraining from pixels. In International Conference on Machine Learning, pages 1691–1703. PMLR, 2020. 1, 2, 6,8

[19] Yihong Chen, Yue Cao, Han Hu, and Liwei Wang. Memory enhanced global-local aggregation for video object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10337–10346,2020. 11

[20] Yunpeng Chen, Yannis Kalantidis, Jianshu Li, Shuicheng Yan, and Jiashi Feng. A2-nets: Double attention networks.Advances in neural information processing systems, pages352–361, 2018. 13

[21] Yunpeng Chen, Marcus Rohrbach, Zhicheng Yan, Yan Shuicheng, Jiashi Feng, and Yannis Kalantidis. Graphbased global reasoning networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 433–442, 2019. 13

[22] Robin Cheong and Robel Daniel. transformers. zip: Compressing transformers with pruning and quantization. Technical report, tech. rep., Stanford University, Stanford, California, 2019. 14

[23] Cheng Chi, Fangyun Wei, and Han Hu. Relationnet++:Bridging visual representations for object detection via transformer decoder. Advances in Neural Information Processing Systems, 2020. 7, 13

[24] Yung-Sung Chuang, Chi-Liang Liu, and Hung-Yi Lee.Speechbert: Cross-modal pre-trained language model for end-to-end spoken question answering. arXiv preprint arXiv:1910.11559, 2019. 5

[25] Fan Chung and Linyuan Lu. The average distances in random graphs with given expected degrees. Proceedings of the National Academy of Sciences, 99(25):15879–15882,2002. 15

[26] Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555, 2014. 4

[27] Kevin Clark, Minh-Thang Luong, Quoc V Le, and Christopher D Manning. Electra: Pre-training text encoders as discriminators rather than generators. arXiv preprint arXiv:2003.10555, 2020. 5

[28] Zhigang Dai, Bolun Cai, Yugeng Lin, and Junying Chen.UP-DETR: unsupervised pre-training for object detection with transformers. arXiv preprint arXiv:2011.09094, 2020.2, 9

[29] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL-HLT (1),2019. 1, 4, 5, 12, 13, 14

[30] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, and Hsiao-Wuen Hon. Unified language model pre-training for natural language understanding and generation. In Advances in Neural Information Processing Systems, pages 13063–13075,2019. 5

[31] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold,Sylvain Gelly, et al. An image is worth 16x16 words:Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 1, 2, 6, 8, 15

[32] Angela Fan, Edouard Grave, and Armand Joulin. Reducing transformer depth on demand with structured dropout.arXiv preprint arXiv:1909.11556, 2019. 14

[33] Chaofei Fan. Quantized transformer. Technical report,Technical report, Stanford University, Stanford, California,2019. URL https . . . . 14

[34] Qi Fan, Wei Zhuo, Chi-Keung Tang, and Yu-Wing Tai.Few-shot object detection with attention-rpn and multirelation detector. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4013–4022, 2020. 13

[35] Robert B Fisher. Cvonline: The evolving, distributed, nonproprietary, on-line compendium of computer vision. Re-trieved January 28, 2006 from http://homepages. inf. ed. ac.uk/rbf/CVonline, 2008. 2

[36] Jonathan Frankle and Michael Carbin. The lottery ticket hypothesis: Finding sparse, trainable neural networks. arXiv preprint arXiv:1803.03635, 2018. 14

[37] Joshua Fromm, Meghan Cowan, Matthai Philipose, Luis Ceze, and Shwetak Patel. Riptide: Fast end-to-end binarized neural networks. Proceedings of Machine Learning and Systems, 2:379–389, 2020. 14

[38] Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3146–3154, 2019. 13

[39] Valentin Gabeur, Chen Sun, Karteek Alahari, and Cordelia Schmid. Multi-modal transformer for video retrieval. In European Conference on Computer Vision (ECCV), pages 214–229, 2020. 11

[40] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020. 11

[41] Rohit Girdhar, Joao Carreira, Carl Doersch, and Andrew Zisserman. Video action transformer network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 244–253, 2019. 11

[42] Qingji Guan, Yaping Huang, Zhun Zhong, Zhedong Zheng, Liang Zheng, and Yi Yang. Diagnose like a radiologist:Attention guided convolutional neural network for thorax disease classification. In arXiv preprint arXiv:1801.09927, 2018. 13

[43] Kai Han, Jianyuan Guo, Chao Zhang, and Mingjian Zhu.Attribute-aware attention model for fine-grained representation learning. In Proceedings of the 26th ACM international conference on Multimedia, pages 2040–2048, 2018.13

[44] Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, and Chang Xu. Ghostnet: More features from cheap operations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1580–1589, 2020. 15

[45] Kai Han, Yunhe Wang, Qiulin Zhang, Wei Zhang, Chunjing Xu, and Tong Zhang. Model rubik’s cube: Twisting resolution, depth and width for tinynets. Advances in Neural Information Processing Systems, 33, 2020. 15

[46] Junjun He, Zhongying Deng, Lei Zhou, Yali Wang, and Yu Qiao. Adaptive pyramid context network for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7519–7528, 2019. 13

[47] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. pages 770–778, 2016. 1

[48] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. 14

[49] Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. 1

[50] Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997. 4

[51] Lu Hou, Zhiqi Huang, Lifeng Shang, Xin Jiang, Xiao Chen, and Qun Liu. Dynabert: Dynamic bert with adaptive width and depth. Advances in Neural Information Processing Systems, 33, 2020. 14

[52] Ting-I Hsieh, Yi-Chen Lo, Hwann-Tzong Chen, and TyngLuh Liu. One-shot object detection with co-attention and co-excitation. In Advances in Neural Information Processing Systems, pages 2725–2734, 2019. 13

[53] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen Wei. Relation networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3588–3597, 2018. 13

[54] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018. 13

[55] Kexin Huang, Jaan Altosaar, and Rajesh Ranganath. Clinicalbert: Modeling clinical notes and predicting hospital readmission. arXiv preprint arXiv:1904.05342, 2019. 5

[56] Lin Huang, Jianchao Tan, Ji Liu, and Junsong Yuan. Handtransformer: Non-autoregressive structured modeling for 3d hand pose estimation. In European Conference on Computer Vision, pages 17–33, 2020. 13

[57] Lin Huang, Jianchao Tan, Jingjing Meng, Ji Liu, and Junsong Yuan. Hot-net: Non-autoregressive transformer for 3d hand-object pose estimation. In Proceedings of the 28th ACM International Conference on Multimedia, pages 3136–3145, 2020. 13

[58] Lang Huang, Yuhui Yuan, Jianyuan Guo, Chao Zhang,Xilin Chen, and Jingdong Wang. Interlaced sparse self-attention for semantic segmentation. arXiv preprint arXiv:1907.12273, 2019. 13

[59] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. Ccnet: Criss-cross attention for semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision, pages 603–612, 2019. 13

[60] Saumya Jetley, Nicholas A Lord, Namhoon Lee, and Philip HS Torr. Learn to pay attention. In International Conference on Learning Representations, 2018. 13

[61] Zi-Hang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, and Shuicheng Yan. Convbert: Improving bert with span-based dynamic convolution. Advances in Neural Information Processing Systems, 33, 2020. 2, 14, 15

[62] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, and Qun Liu. TinyBERT: Distilling BERT for natural language understanding. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 4163–4174, Nov. 2020. 2, 13, 14

[63] Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S Weld,Luke Zettlemoyer, and Omer Levy. Spanbert: Improving pre-training by representing and predicting spans. Transactions of the Association for Computational Linguistics,8:64–77, 2020. 4

[64] Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas,and Franc¸ois Fleuret. Transformers are rnns: Fast autoregressive transformers with linear attention. In International Conference on Machine Learning, pages 5156–5165.PMLR, 2020. 15

[65] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.Imagenet classification with deep convolutional neural networks. In NeurIPS, pages 1097–1105, 2012. 1

[66] Saumya Kumaar, Ye Lyu, Francesco Nex, and Michael Ying Yang. Cabinet: Efficient context aggregation network for low-latency semantic segmentation.arXiv preprint arXiv:2011.00993, 2020. 13

[67] Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Albert: A lite bert for self-supervised learning of language representations. arXiv preprint arXiv:1909.11942, 2019. 13

[68] Yann LeCun, Leon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324,1998. 1

[69] Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, Donghyeon Kim, Sunkyu Kim, Chan Ho So, and Jaewoo Kang. Biobert:a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4):1234–1240,2020. 5

[70] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, and Luke Zettlemoyer. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461, 2019. 5

[71] Guang Li, Linchao Zhu, Ping Liu, and Yi Yang. Entangled transformer for image captioning. In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 8928–8937, 2019. 12

[72] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh,and Kai-Wei Chang. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557, 2019. 5

[73] Wei Li, Kai Liu, Lizhe Zhang, and Fei Cheng. Object detection based on an adaptive attention mechanism. Scientific Reports, pages 1–13, 2020. 13

[74] Xia Li, Zhisheng Zhong, Jianlong Wu, Yibo Yang,Zhouchen Lin, and Hong Liu. Expectation-maximization attention networks for semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision, pages 9167–9176, 2019. 13

[75] Yin Li and Abhinav Gupta. Beyond grids: Learning graph representations for visual recognition. Advances in Neural Information Processing Systems, pages 9225–9235, 2018.13

[76] Xiaodan Liang, Zhiting Hu, Hao Zhang, Liang Lin, and Eric P Xing. Symbolic graph reasoning meets convolutions.Advances in Neural Information Processing Systems, pages 1853–1863, 2018. 13

[77] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He,Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117–2125, 2017. 7

[78] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He,and Piotr Dollar. Focal loss for dense object detection. In ICCV, 2017. 13

[79] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755, 2014. 13

[80] Hao Liu, Jiwen Lu, Jianjiang Feng, and Jie Zhou. Twostream transformer networks for video-based face alignment. IEEE transactions on pattern analysis and machine intelligence, 40(11):2546–2554, 2017. 11

[81] Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. Endto-end lane shape prediction with transformers. In WACV,2021. 7, 9

[82] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019. 4, 5

[83] Zhouyong Liu, Shun Luo, Wubin Li, Jingben Lu, Yufan Wu, Chunguo Li, and Luxi Yang. Convtransformer: A convolutional transformer network for video frame synthesis. arXiv preprint arXiv:2011.10185, 2020. 11

[84] Suhas Lohit, Qiao Wang, and Pavan Turaga. Temporal transformer networks: Joint learning of invariant and discriminative time warping. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),pages 12426–12435, 2019. 11

[85] Paul Michel, Omer Levy, and Graham Neubig. Are sixteen heads really better than one? In Advances in Neural Information Processing Systems, pages 14014–14024, 2019. 2,14

[86] Seyed Iman Mirzadeh, Mehrdad Farajtabar, Ang Li, Nir Levine, Akihiro Matsukawa, and Hassan Ghasemzadeh.Improved knowledge distillation via teacher assistant. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 5191–5198, 2020. 14

[87] Volodymyr Mnih, Nicolas Heess, Alex Graves, et al. Recurrent models of visual attention. Advances in neural information processing systems, pages 2204–2212, 2014. 13

[88] Subhabrata Mukherjee and Ahmed Hassan Awadallah.Xtremedistil: Multi-stage distillation for massive multilingual models. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2221–2234, 2020. 14

[89] Ozan Oktay, Jo Schlemper, Loic Le Folgoc, Matthew Lee,Mattias Heinrich, Kazunari Misawa, Kensaku Mori, Steven McDonagh, Nils Y Hammerla, Bernhard Kainz, et al. Attention u-net: Learning where to look for the pancreas. arXiv preprint arXiv:1804.03999, 2018. 13

[90] Ankur Parikh, Oscar Tackstr om, Dipanjan Das, and Jakob Uszkoreit. A decomposable attention model for natural language inference. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2249–2255, 2016. 1

[91] Eunhyeok Park and Sungjoo Yoo. Profit: A novel training method for sub-4-bit mobilenet models. In European Conference on Computer Vision, pages 430–446. Springer,2020. 14

[92] Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Łukasz Kaiser, Noam Shazeer, Alexander Ku, and Dustin Tran. Image transformer. ICML, 2018. 2, 9, 10

[93] Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier, and Maguelonne Heritier. Spotnet: Self-attention multi-task network for object detection. In 2020 17th Conference on Computer and Robot Vision (CRV), pages 230–237, 2020. 13

[94] Matthew E Peters, Mark Neumann, Robert L Logan IV,Roy Schwartz, Vidur Joshi, Sameer Singh, and Noah A Smith. Knowledge enhanced contextual word representations. arXiv preprint arXiv:1909.04164, 2019. 5

[95] Tim Prangemeier, Christoph Reich, and Heinz Koeppl.Attention-based transformers for instance segmentation of cells in microstructures. arXiv preprint arXiv:2011.09763, 2020. 9

[96] Sai Prasanna, Anna Rogers, and Anna Rumshisky. When bert plays the lottery, all tickets are winning. arXiv preprint arXiv:2005.00561, 2020. 14

[97] Gabriele Prato, Ella Charlaix, and Mehdi Rezagholizadeh. Fully quantized transformer for machine translation. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, pages 1–14, 2020. 2, 14

[98] Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai, and Xuanjing Huang. Pre-trained models for natural language processing: A survey. arXiv preprint arXiv:2003.08271, 2020. 5, 13

[99] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training, 2018. 5

[100] Alec Radford, Jeffrey Wu, Rewon Child, David Luan,Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9,2019. 5, 6

[101] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019. 5

[102] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jonathon Shlens. Standalone self-attention in vision models. arXiv preprint arXiv:1906.05909, 2019. 13

[103] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 1

[104] Frank Rosenblatt. The perceptron, a perceiving and recognizing automaton Project Para. Cornell Aeronautical Laboratory, 1957. 1

[105] FRANK ROSENBLATT. Principles of neurodynamics.perceptrons and the theory of brain mechanisms. Technical report, CORNELL AERONAUTICAL LAB INC BUFFALO NY, 1961. 1

[106] David E Rumelhart, Geoffrey E Hinton, and Ronald J Williams. Learning internal representations by error propagation. Technical report, California Univ San Diego La Jolla Inst for Cognitive Science, 1985. 1

[107] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. Distilbert, a distilled version of bert: smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108, 2019. 13

[108] Kara Marie Schatz, Erik Quintanilla, Shruti Vyas, and Yogesh Singh Rawat. A recurrent transformer network for novel view action synthesis. In ECCV (27), pages 410–426, 2020. 11

[109] Hongje Seong, Junhyuk Hyun, and Euntai Kim. Video multitask transformer network. In Proceedings of the IEEE International Conference on Computer Vision Workshops,pages 0–0, 2019. 11

[110] Jie Shao, Xin Wen, Bingchen Zhao, and Xiangyang Xue. Temporal context aggregation for video retrieval with contrastive learning. 11

[111] Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W Mahoney, and Kurt Keutzer. Q-bert: Hessian based ultra low precision quantization of bert. In AAAI, pages 8815–8821, 2020. 13

[112] Kumar Shridhar, Harshil Jain, Akshat Agarwal, and Denis Kleyko. End to end binarized neural networks for text classification. In Proceedings of SustaiNLP: Workshop on Simple and Efficient Natural Language Processing, pages 29–34, 2020. 14

[113] Daniel A Spielman and Shang-Hua Teng. Spectral sparsification of graphs. SIAM Journal on Computing, 40(4):981–1025, 2011. 15

[114] Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu,Furu Wei, and Jifeng Dai. Vl-bert: Pre-training of generic visual-linguistic representations. arXiv preprint arXiv:1908.08530, 2019. 5

[115] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy,and Cordelia Schmid. Videobert: A joint model for video and language representation learning. In Proceedings of the IEEE International Conference on Computer Vision, pages 7464–7473, 2019. 5

[116] Siqi Sun, Yu Cheng, Zhe Gan, and Jingjing Liu. Patient knowledge distillation for bert model compression. arXiv preprint arXiv:1908.09355, 2019. 13

[117] Zhiqing Sun, Shengcao Cao, Yiming Yang, and Kris Kitani. Rethinking transformer-based set prediction for object detection. arXiv preprint arXiv:2011.10881, 2020. 2, 9

[118] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, and Denny Zhou. Mobilebert: a compact taskagnostic bert for resource-limited devices. arXiv preprint arXiv:2004.02984, 2020. 13

[119] Lucas Tabelini, Rodrigo Berriel, Thiago M Paixao, Claudine Badue, Alberto F De Souza, and Thiago OliveiraSantos. Polylanenet: Lane estimation via deep polynomial regression. arXiv preprint arXiv:2004.10924, 2020. 9

[120] Iulia Turc, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Well-read students learn better: The impact of student initialization on knowledge distillation. arXiv preprint arXiv:1908.08962, 2019. 13

[121] Shimon Ullman et al. High-level vision: Object recognition and visual cognition, volume 2. MIT press Cambridge, MA, 1996. 2

[122] Vincent Vanhoucke, Andrew Senior, and Mark Z Mao. Improving the speed of neural networks on cpus. 2011. 14

[123] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser,and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30:5998–6008, 2017. 1, 2, 3, 4, 9, 12, 14, 15

[124] Xuan-Thuy Vo, Lihua Wen, Tien-Dat Tran, and Kang-Hyun Jo. Bidirectional non-local networks for object detection.In International Conference on Computational Collective Intelligence, pages 491–501, 2020. 13

[125] Fei Wang, Mengqing Jiang, Chen Qian, Shuo Yang, Cheng Li, Honggang Zhang, Xiaogang Wang, and Xiaoou Tang.Residual attention network for image classification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3156–3164, 2017. 13

[126] Huiyu Wang, Yukun Zhu, Hartwig Adam, Alan L. Yuille,and Liang-Chieh Chen. Max-deeplab: End-to-end panoptic segmentation with mask transformers. arXiv preprint arXiv:2012.00759, 2020. 2, 7, 9

[127] Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, and Ming Zhou. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers.arXiv preprint arXiv:2002.10957, 2020. 14

[128] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. 12

[129] Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, and Huaxia Xia. End-toend video instance segmentation with transformers. arXiv preprint arXiv:2011.14503, 2020. 2, 7, 9

[130] Yude Wang, Jie Zhang, Meina Kan, Shiguang Shan, and Xilin Chen. Self-supervised equivariant attention mechanism for weakly supervised semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12275–12284, 2020. 13

[131] Ziheng Wang, Jeremy Wohlwend, and Tao Lei. Structured pruning of large language models. arXiv preprint arXiv:1910.04732, 2019. 14

[132] Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, and Song Han. Lite transformer with long-short range attention.arXiv preprint arXiv:2004.11886, 2020. 15

[133] Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, and Ming Zhou. Bert-of-theseus: Compressing bert by progressive module replacing. arXiv preprint arXiv:2002.02925, 2020. 13

[134] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In International conference on machine learning, pages 2048–2057, 2015. 13

[135] Fuzhi Yang, Huan Yang, Jianlong Fu, Hongtao Lu, and Baining Guo. Learning texture transformer network for image super-resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pages 5791–5800, 2020. 2, 10

[136] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell,Russ R Salakhutdinov, and Quoc V Le. Xlnet: Generalized autoregressive pretraining for language understanding. In Advances in neural information processing systems, pages 5753–5763, 2019. 5

[137] Zhaohui Yang, Yunhe Wang, Kai Han, Chunjing Xu, Chao Xu, Dacheng Tao, and Chang Xu. Searching for lowbit weights in quantized neural networks. arXiv preprint arXiv:2009.08695, 2020. 14

[138] Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, and Ruigang Yang. Lidar-based online 3d video object detection with graph-based message passing and spatiotemporal transformer attention. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 11495–11504, 2020. 11

[139] Yuhui Yuan and Jingdong Wang. Ocnet: Object context network for scene parsing. arXiv preprint arXiv:1809.00916, 2018. 13

[140] Kaiyu Yue, Ming Sun, Yuchen Yuan, Feng Zhou, Errui Ding, and Fuxin Xu. Compact generalized non-local network. In Advances in Neural Information Processing Systems, pages 6510–6519, 2018. 13

[141] Chulhee Yun, Yin-Wen Chang, Srinadh Bhojanapalli,Ankit Singh Rawat, Sashank J Reddi, and Sanjiv Kumar. o(n) connections are expressive enough: Universal approximability of sparse transformers. arXiv preprint arXiv:2006.04862, 2020. 15

[142] Ofir Zafrir, Guy Boudoukh, Peter Izsak, and Moshe Wasserblat. Q8bert: Quantized 8bit bert. arXiv preprint arXiv:1910.06188, 2019. 13

[143] Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, et al. Big bird: Transformers for longer sequences. arXiv preprint arXiv:2007.14062, 2020. 15

[144] Yanhong Zeng, Jianlong Fu, and Hongyang Chao. Learning joint spatial-temporal transformations for video inpainting. In European Conference on Computer Vision, pages 528–543. Springer, 2020. 2, 12

[145] Dong Zhang, Hanwang Zhang, Jinhui Tang, Meng Wang,Xiansheng Hua, and Qianru Sun. Feature pyramid transformer. In ECCV, 2020. 7

[146] Fan Zhang, Yanqin Chen, Zhihang Li, Zhibin Hong, Jingtuo Liu, Feifei Ma, Junyu Han, and Errui Ding. Acfnet: Attentional class feature network for semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision, pages 6798–6807, 2019. 13

[147] Hang Zhang, Han Zhang, Chenguang Wang, and Junyuan Xie. Co-occurrent features in semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 548–557, 2019. 13

[149] Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang,Maosong Sun, and Qun Liu. Ernie: Enhanced language representation with informative entities. arXiv preprint arXiv:1905.07129, 2019. 5

[150] Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, and Vladlen Koltun. Point transformer. arXiv preprint arXiv:2012.09164, 2020. 9

[151] Hengshuang Zhao, Yi Zhang, Shu Liu, Jianping Shi, Chen Change Loy, Dahua Lin, and Jiaya Jia. Psanet: Point-wise spatial attention network for scene parsing. In Proceedings of the European Conference on Computer Vision (ECCV), pages 267–283, 2018. 13

[152] Zihan Zhao, Yuncong Liu, Lu Chen, Qi Liu, Rao Ma, and Kai Yu. An investigation on different underlying quantization schemes for pre-trained language models. In CCF International Conference on Natural Language Processing and Chinese Computing, pages 359–371. Springer, 2020.14

[153] Minghang Zheng, Peng Gao, Xiaogang Wang, Hongsheng Li, and Hao Dong. End-to-end object detection with adaptive clustering transformer. arXiv preprint arXiv:2011.09315, 2020. 2, 8

[154] Luowei Zhou, Yingbo Zhou, Jason J Corso, Richard Socher, and Caiming Xiong. End-to-end dense video captioning with masked transformer. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8739–8748, 2018. 2, 12

[155] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. 2, 7, 8

[156] Yukun Zhu, Ryan Kiros, Rich Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler.Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of the IEEE international conference on computer vision, pages 19–27, 2015. 4

你可能感兴趣的:(计算机视觉,计算机视觉,transformer,cnn)

（视频演示）基于OpenCV的实时视频跟踪火焰识别软件V1.0源码及exe下载是刃小木啦~ opencv 人工智能计算机视觉
本文介绍了基于OpenCV的实时视频跟踪火焰识别软件，该软件通过先进的图像处理技术实现对实时视频中火焰的检测与跟踪，同时支持导入图片进行火焰识别。主要功能包括相机选择、实时跟踪和图片模式。软件适用于多种场合，用于保障人民生命财产安全。源码及exe文件可通过蓝奏云网盘下载。软件简介《基于OpenCV的实时视频跟踪火焰识别软件》是一款创新的计算机视觉应用软件，旨在通过先进的图像处理技术实现对实时视频中
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
Bert学习笔记缓释多巴胺。大模型相关知识语言模型 bert
一、Bert架构BERT使用了双向的TransformerGPT使用从左到右的单向信息ELMo把单独训练的从左到右及从右到左的LSTM模型进行合并二、Bert预训练任务2.1遮蔽语言模型MLM任务：随机屏蔽（masking）部分输入token，然后只预测那些被屏蔽的token。问题：预训练任务与微调任务不一致原因：在finetuning期间从未看到[MASK]token，预训练和finetunin
使用OpenCV和Python将图像读取为RGB UixnContext opencv python 人工智能 OpenCV
在计算机视觉和图像处理中，OpenCV是一个广泛使用的开源库，提供了许多功能强大的图像处理工具。其中一个常见的任务是将图像读取为RGB格式，以便进一步处理和分析。在本文中，我将向您展示如何使用OpenCV和Python来实现这个任务。首先，确保您已经安装了OpenCV库。您可以使用以下命令在Python中安装OpenCV：pipinstallopencv-python一旦安装完成，我们可以开始写代
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
大模型驱动的智能代码生成系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型驱动的智能代码生成系统关键词大模型智能代码生成自然语言处理计算机视觉系统设计与实现摘要本文深入探讨了基于大模型的智能代码生成系统的构建与实现。首先，我们分析了智能代码生成的背景与意义，随后介绍了大模型的基本原理及其在代码生成中的潜力。接着，我们详细阐述了智能代码生成系统的设计与实现过程，包括系统需求分析、架构设计、模型集成与优化等方面。随后，本文通过自然语言处理、计算机视觉和代码生成应用，展
Python图片识别脚本：从零开始实现图像识别！ Python_trys python 开发语言编程 Python入门 Python基础 Python识别 Python学习
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】图像识别是计算机视觉领域的一个重要应用，Python凭借其丰富的库和工具，成为了实现图像识别的首选语言之一。本文将带你从零开始，使用Python编写一个简单的图片识别脚本。我们将使用OpenCV和TensorFlow来实现这个功能。1.环境准备在开始之前，我们需要安装一些必要的Python库。你可以使用pip来安装这些库：pipinsta
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
目前市场上的人工智能大模型有哪些？国货崛起大模型人工智能人工智能
截至最后更新时间（2024年3月中旬），以下是国内外部分知名的人工智能大模型，按类别和用途大致分类如下：国外：自然语言处理（NLP）大模型：OpenAIGPT系列：GPT-3：迄今为止最为知名的自然语言处理大模型之一，具备强大的文本生成、理解和对话能力。GPT-4：后续版本，性能和参数量比GPT-3更高，各项指标均有所提升。Google的Transformer系列：BERT（Bidirection
自动驾驶---LSTM模型用于轨迹预测智能汽车人自动驾驶 lstm 人工智能自然语言处理
1前言在下面几篇博客中，笔者简单介绍过Transformer，Transformer的内部结构虽然比较清晰，但对于入门者来说还是复杂了一些。《人工智能---什么是Transformer?》《自动驾驶---视觉Transformer的应用》《自动驾驶---Parking端到端架构》中介绍的轨迹Decoder模块本篇博客和读者朋友们探讨一种比较早的模型（理解起来也相对容易一些）：LSTM（LongSh
基于OpenCV的Java人脸识别系统设计与实现小呀白呀兔 java spring boot
基于OpenCV的Java人脸识别系统设计与实现1.引言随着计算机视觉技术的发展，人脸识别在安全监控、身份验证等领域得到了广泛应用。本文将详细介绍如何使用OpenCV库和Java语言构建一个简单的人脸识别系统。该系统能够从图像中检测人脸，并通过深度学习模型提取特征进行比对，最终输出相似度评分及置信度等级。2.环境搭建为了确保项目顺利运行，请按照以下步骤配置开发环境：安装JDK：确保已安装JavaD
大模型入门 24k小善 AI编程 AI写作 prompt
大模型技术演进的核心脉络当前大模型技术已进入"参数规模+架构创新"双轮驱动阶段。2025年的最新趋势显示，万亿级参数模型在稀疏激活（如Mixture-of-Experts）与动态路由技术加持下，推理成本较传统密集模型降低57%。Transformer架构的持续演进体现在位置编码改进（如RoPE旋转位置编码）、注意力机制优化（FlashAttention算法提升30%训练速度）以及层级结构创新（深度
OpenCV实现在图像中绘制汉字海上的风浪 opencv 人工智能计算机视觉编程
在本文中，我将向您展示如何使用OpenCV库在图像中绘制汉字。OpenCV是一个广泛使用的计算机视觉库，它提供了许多强大的功能，包括图像处理和绘图。首先，我们需要安装OpenCV库。您可以通过在终端或命令提示符中运行以下命令来安装它：pipinstallopencv-python接下来，我们将使用Python编写代码来实现在图像中绘制汉字。请确保您已经安装了Python和OpenCV库。impor
【精华推荐】AI大模型学习必逛的十大顶级网站大模型入门学习人工智能学习大模型入门 llama 大模型教程大模型学习大模型
随着人工智能技术的快速发展，AI大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说，找到合适的学习资源至关重要。本文将为大家推荐十大必备网站，帮助你更好地理解和应用AI大模型。1.CourseraCoursera是一个在线学习平台，提供各类AI和机器学习课程，包括斯坦福大学的机器学习课程和深度学习专项课程。通过视频讲解
深度学习进阶：TensorFlow实战指南 ELSON麦香包
本文还有配套的精品资源，点击获取简介：《TensorFlow实战Google深度学习框架》详细指导读者学习TensorFlow，涵盖基础概念、数据流图、API使用、张量和变量操作，深度学习基础如CNN和RNN，以及自定义层和优化算法。书中还提供使用TensorFlow构建和训练深度学习模型的实例，包括AlexNet、VGG、ResNet以及LSTM和GRU，并通过图像分类和文本情感分析等实战案例，
TensorFlow.js - 使用 CNN(卷积神经网络) 识别手写数字宁静_致远_ 前端开发 javascript tensorflow cnn
目录index.htmldata.jsscript.js备注参考文献index.htmlTensorFlow.jsTutorialdata.js/***@license*Copyright2018GoogleLLC.AllRightsReserved.*LicensedundertheApacheLicense,Version2.0(the"License");*youmaynotusethisf
卷积神经网络应用-训练手写体数字数据集并展示识别精度 yeahamen 深度学习 python 机器学习卷积神经网络手写体数字识别
#卷积神经网络(CNN)训练手写体数据集importnumpyasnpimportmatplotlib.pyplotaspltimporttensorflow.kerasaskaimportdatetime#python3.X版本显示图片还需导入此库importpylabnp.random.seed(0)#定义加载数据集函数defload_data_npz(path):#np.load文件可以加载
深度学习实战：用TensorFlow构建高效CNN的完整指南芯作者 DD：日记深度学习
一、为什么每个开发者都要掌握CNN？在自动驾驶汽车识别路标的0.1秒里，在医疗AI诊断肺部CT片的精准分析中，甚至在手机相册自动分类宠物的日常场景里，卷积神经网络（CNN）正悄然改变着我们的世界。本文将以工业级实践标准，带您从零构建一个在CIFAR-10数据集上达到90%+准确率的CNN模型，深入解析TensorFlow2.x的最新特性，并揭秘模型优化的七大核心策略。[外链图片转存失败,源站可能有
Python从0到100（十八）：面向对象编程应用是Dream呀 python 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
YOLOv8改进主干RTMDet论文系列：高效涨点的单阶段目标检测器主干 IdfdFsharp YOLO 计算机视觉
近年来，目标检测技术在计算机视觉领域取得了显著的进展。为了提高目标检测器的性能和降低延时，研究人员不断提出新的方法和架构。本文介绍了一篇名为"YOLOv8改进主干RTMDet"的论文系列，该系列通过结合最新的RTMDet论文和采用CSPNeXt主干结构，实现了高性能、低延时的单阶段目标检测器主干。在本论文系列中，作者着重研究了目标检测器主干的改进方法。主干网络在目标检测中扮演着重要的角色，它负责提
基于opencv答题卡识别判卷深度学习乐园深度学习实战项目 opencv 人工智能计算机视觉
项目源码获取方式见文章末尾！回复暗号：13，免费获取600多个深度学习项目资料，快来加入社群一起学习吧。**《------往期经典推荐------》**项目名称1.【基于DDPG算法的股票量化交易】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LS
TensorFlow\Keras实战100例——BP\CNN神经网络~MINST手写数字识别 AI街潜水的八角 tensorflow 人工智能 python
一.原理说明BP神经网络是一种多层的前馈神经网络，其主要的特点是：信号是前向传播的，而误差是反向传播的。具体来说，对于如下的只含一个隐层的神经网络模型：BP神经网络的过程主要分为两个阶段，第一阶段是信号的前向传播，从输入层经过隐含层，最后到达输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后到输入层，依次调节隐含层到输出层的权重和偏置，输入层到隐含层的权重和偏置。卷积神经网络（Convolu
AI语言模型的技术之争：DeepSeek与ChatGPT的架构与训练揭秘 m0_74825466 面试学习路线阿里巴巴 chatgpt 人工智能语言模型
-CSDN博客目录第一章：DeepSeek与ChatGPT的基础概述1.1DeepSeek简介1.2ChatGPT简介第二章：模型架构对比2.1Transformer架构：核心相似性2.2模型规模与参数第三章：训练方法与技术3.1预训练与微调：基础训练方法3.2强化学习与奖励建模3.3知识蒸馏与量化技术第四章：训练数据与应用4.1训练数据集：数据源的差异4.2特定领域任务：应用场景的差异第五章：代
完整代码详解：Python实现基于文本内容的用户隐私泄露风险评估 mosquito_lover1 python 开发语言
主要应用场景：社交网络隐私风险评估实现一个基于文本内容的用户隐私泄露风险评估系统，涉及多个步骤和技术。以下是一个完整的Python代码示例，涵盖了基于BERT的文本表示、基于聚类的文本隐私体系构建、基于命名实体识别的隐私信息提取、以及基于信息熵的文本隐私量化。1.安装所需的库首先，确保你已经安装了以下Python库：pipinstalltransformersscikit-learnnumpypa
Transformer 代码剖析15 - Transformer模型代码（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习 embedding 人工智能 python
一、模型架构全景解析1.1类定义与继承关系classTransformer(nn.Module):该实现继承PyTorch的nn.Module基类，采用面向对象设计模式。核心架构包含编码器-解码器双塔结构，通过参数配置实现NLP任务的通用处理能力。TransformerEncoderDecoderMulti-HeadAttentionFeedForwardMaskedMulti-HeadAtten
详解DeepSeek模型底层原理及和ChatGPT区别点瞬间动力语言模型机器学习 AI编程云计算阿里云
一、DeepSeek大模型原理架构基础DeepSeek基于Transformer架构，Transformer架构主要由编码器和解码器组成，在自然语言处理任务中，通常使用的是Transformer的解码器部分。它的核心是自注意力机制（Self-Attention），这个机制允许模型在处理输入序列时，关注序列中不同位置的信息。例如，在处理句子“Thecatchasedthemouse”时，自注意力机制
2万字长文，九篇论文读懂大语言模型的前世今生人工智能
2万字长文，九篇论文读懂大语言模型的前世今生友情提示：这是一篇2W字长文，但我保证，它绝对值得一读！如果感兴趣的话，感谢关注，点赞转发在看收藏，五键四连，谢谢~更多LLM架构文章：LLM架构专栏近日热文：1.全网最全的神经网络数学原理（代码和公式）直观解释2.大模型进化史：从Transformer到DeepSeek-R1的AI变革之路3.2W8000字深度剖析25种RAG变体：全网最全~没有之一4
Python项目-基于深度学习的校园人脸识别考勤系统天天进步2015 Python项目实战 python
引言随着人工智能技术的快速发展，深度学习在计算机视觉领域的应用日益广泛。人脸识别作为其中的一个重要分支，已经在安防、金融、教育等多个领域展现出巨大的应用价值。本文将详细介绍如何使用Python和深度学习技术构建一个校园人脸识别考勤系统，该系统能够自动识别学生身份并记录考勤信息，大大提高了考勤效率，减轻了教师的工作负担。系统概述功能特点实时人脸检测与识别：能够从摄像头视频流中实时检测并识别人脸自动考
笔记-Python图片处理（OpenCV-Python ）大白砌墙笔记 python opencv
OpenCV是一个基于BSD许可（开源）发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和MacOS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。OpenCV-Python是OpenCV的Python的API接口，它拥有OpenCVC++API
Transformer架构简略：DeepSeek 的底层基石 windwant 人工智能人工智能 transformer 架构
2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。它不仅在各种NLP任务上取得了突破性进展，更成为了当今人工智能领域最具影响力的架构之一。一、从RNN到Transformer：突破瓶颈，开创先河在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）是处理序列
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option