Tom Hardy

视觉Transformer综述

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

华为诺亚，北京大学，悉尼大学共同发表了论文《A Survey on Visual Transformer》，本文针对其重点内容进行翻译概括如下。文末附论文原文和本文完整版下载方式。

导言：

Transformer是一种主要基于自注意力机制的深度神经网络，最初是在自然语言处理领域中应用的。受到Transformer强大的表示能力的启发，研究人员提议将Transformer扩展到计算机视觉任务。与其他网络类型（例如卷积网络和循环网络）相比，基于Transformer的模型在各种视觉基准上显示出竞争性的甚至更好的性能。

在本文中，我们通过将这些Visual Transformer模型按不同的任务分类，并分析了这些方法的优缺点，提供了文献综述。主要类别包括基本图像分类，high-level vision，low-level vision和视频处理。由于self-attention是Transformer的基本组成部分，因此也简要回顾了计算机视觉中的自注意力。包括将Transformer推向实际应用的有效Transformer方法。最后，我们讨论了Visual Transformer的进一步研究方向。

1. 总体概述

卷积神经网络（CNN）引入了卷积层和池化层以处理图像等位移不变性的数据。递归神经网络（RNN）利用循环单元来处理顺序数据或时间序列数据。Transformer是一种新提出的神经网络，主要利用自我注意机制提取内在特征。在这些网络中，Transformer是最近发明的神经网络(2017年)，对于广泛的人工智能应用具有巨大的潜力。

Transformer最初应用于自然语言处理（NLP）任务，并带来了显着的改进。例如，Vaswani等人首先提出了一种仅基于注意力机制来实现机器翻译和英语选区解析任务的Transformer。Devlin等人引入了一种称为BERT的新语言表示模型，该模型通过共同限制左右上下文来预训练未标记文本的翻译器。BERT在当时的11个NLP任务上获得了SOTA结果。Brown等人在45TB压缩明文数据上预训练了基于巨型Transformer的GPT-3模型，该模型具有1,750亿个参数，并且无需微调即可在不同类型的下游自然语言任务上实现出色的性能。这些基于Transformer的模型显示了强大的表示能力，并在NLP领域取得了突破。

受NLP中Transformer功能的启发，最近的研究人员将Transformer扩展到计算机视觉（CV）任务。CNN曾经是视觉应用中的基本组件，但是Transformer显示出了其作为CNN替代品的能力。Chen等人训练一个sequence Transformer去自动回归预测像素并在图像分类任务上与CNN取得竞争性结果。ViT是Dosovitskiy等人最近提出的Visual Transformer模型。ViT将一个纯粹的transformer直接用于图像块序列，并在多个图像识别基准上获得SOTA性能。除了基本的图像分类，transformer还用于解决更多计算机视觉问题，例如目标检测，语义分割，图像处理和视频理解。由于其出色的性能，提出了越来越多基于transformer的模型来改善各种视觉任务。

为了获得更好的方便研究人员研究不同的主题，我们按其应用场景对transformer模型进行分类，如表1所示。特别是，主要主题包括基本图像分类，high-level vision，low-level vision和视频处理。high-level vision对图像中可以看到的内容进行提取和解析，例如对象检测，分割和车道检测。已经有许多用于解决这些high-level vision任务的transformer模型，例如DETR，deformanble DETR用于物体检测，以及Max-DeepLab用于分割。low-level vision主要涉及从图像（通常通常表示为图像本身）中提取描述子，其典型应用包括超分辨率，图像去噪和风格迁移。在 low-level vision的transformer研究很少，需要进行更多的研究。

由于视频的顺序特性，transformer可以自然地应用于视频。与传统的CNN或RNN相比，Transformer开始在这些任务上显示出具有竞争力的性能。在这里，我们对基于transformer的视觉模型给出了一个综述，以跟上该领域的进展。Visual transformer的开发时间表如图1所示。

2. Transformer结构

详情请看另一篇文章《transformer解读》

3. Visual Transformer

在本节中，我们将对基于transformer的计算机视觉模型进行全面回顾，包括图像分类，high-level vision，low-level vision和视频处理中的应用。我们还简要总结了自注意力机制和模型压缩方法在高效transformer中的应用。

3.1 Image Classification

受到transformer在自然语言处理方面取得巨大成功的启发，一些研究人员试图检验相似的模型是否可以学习图像的有用表示。作为一种比文本更高维度，更嘈杂，更冗余的形式，人们认为图像很难生成模型。 iGPT 和ViT是仅使用transformer进行图像分类的两个模型。

3.1.1 iGPT

自从最初的生成式图像预训练方法浪潮问世以来，已经有很长时间了。Chen等人重新检查这类方法，并结合自我监督方法的最新进展。该方法包括一个预训练阶段，然后是一个fine-tune阶段。在预训练中，应尝试使用自回归和BERT目标。此外，在NLP中应用sequence transformer体系结构来预测像素而不是语言标记。预训练使得训练可以尽早地停止，因此可被视为有利的初始化或正则化。在fine-tune过程中，他们向模型添加了一个小的分类头，该分类头用于优化分类目标并适应所有权重。

给定一个由高维数据x =（x1，...，xn）组成的未标记数据集X。他们通过最小化数据的负对数似然来训练模型：

其中p（x）是图像数据的密度，可以将其建模为：

其中1 <= i <= n采用单位置换 πi = i，也称为栅格顺序。他们还考虑了BERT目标，该目标对子序列M⊂[1，n]进行采样，以使每个索引i独立地具有在M中出现的0.15的概率。M称为BERT掩码，模型为通过最小化“unMasked”元素x [1，n] \ M上的“Masked”元素x[1,n]\M的负对数似然来训练：

在预训练中，他们选择LAR或Lbert中的一种，并在预训练数据集上最大程度地减少损失。他们使用transformer decoder模块的GPT-2公式表示。特别是，layer norms先于注意力和多层感知器（MLP）操作，并且所有操作都严格按照残差路径进行。序列元素之间唯一的混合发生在注意力操作中，并且为了确保在训练AR目标时进行适当的调节，他们将标准的上三角mask应用于attention logits的n×n矩阵。当使用BERT目标时，不需要attention logits mask：将内容嵌入应用于输入序列后，它们会将位置清零。

在微调期间，它们平均将最终lay norm n(L)的输出在整个序列维上合并，以每个示例提取特征的d维向量：

他们学习了从f(L)到class logit的投影，该投影用于最小化交叉熵损失L(CLF)。在实践中，他们凭经验发现联合目标L(GEN) + L(CLF)的效果更好，其中L(GEN)∈{L(AR)，L(BERT)}。(此处括号内的内容为下标)

3.1.2 ViT

最近，Dosovitskiy等人提出了一种pure transformer，即Vision Transformer（ViT），当直接应用于图像块的序列时，它在图像分类任务上表现良好。它们尽可能遵循原始transformer的设计。下图显示了Vision Transformer的框架。

为了处理2D图像，将图像x∈R H×W×C整形为一系列平坦的2D块x（p）∈R N×（P^2·C）。（H，W）是原始图像的分辨率，（P，P）是每个图像块的分辨率。那么N = HW / P^2是该Transformer的有效序列长度。由于Transformer的所有层都使用恒定的宽度，因此可训练的线性投影将每个矢量化路径映射到模型尺寸D，它们的输出称为patch embeddings。

与BERT的[class]标记类似，可学习的embedding被用于embedding块的序列，其在Transformer encoder输出处的状态用作图像表示。在预训练和微调过程中，分类头的大小均相同。另外，将一维position embeddings添加到embeddings块中以保留位置信息。他们对position embeddings的2D感知方法有不同的探索，它们没有比标准的1D position embeddings获得明显的收益。 joint embeddings作为encoder的输入。值得注意的是，Vision Transformer仅使用标准Transformer的encoder，而MLP头后面是Transformer encoder的输出。

通常，首先在大型数据集上对ViT进行预训练，然后对较小的下游任务进行微调。为此，去除预训练的预测头，并附加一个零初始化的D×K前馈层，其中K是下游类别的数量。以比预训练更高的分辨率进行微调通常是有益的。喂入更高分辨率的图像时，色块大小保持不变，这会导致更大的有效序列长度。 Vision Transformer可以处理任意序列长度，但是预训练的position embeddings可能不再有意义。因此，作者根据预训练position embeddings在原始图像中的位置执行2D插值。请注意，只有将分辨率调整和色块提取手动插入有关图像2D结构的感应偏置时，才能将其手动注入到Vision Transformer中。

当在中等大小的数据集（如ImageNet）上训练时，此类模型产生较差的结果，与可比较大小的ResNets相比，精度要低几个百分点。Transformer缺乏CNN固有的一些归纳偏置（inductive biases），例如翻译等方差和局部性，因此在训练不足的数据量时不能很好地概括。但是，如果在大型数据集上训练模型（14M-300M图像），则图片会发生变化。作者发现，大规模训练胜过归纳偏置。进行足够规模的预训练并转移到数据点较少的任务时，Transformer可获得出色的结果。在JFT-300M数据集上进行过预训练的Vision Transformer在多个图像识别基准上达到或优于SOTA，在ImageNet上达到88.36％，在CIFAR-10上达到99.50％，在CIFAR-100上达到94.55％，以及77.16％在VTAB套件中包含19个任务。表3显示了iGPT和ViT的详细结果

总之，iGPT回顾了生成式预训练方法，并将其与自我监督方法相结合，结果并不十分令人满意。ViT取得了更好的结果，特别是当它使用更大的数据集（JFT-300）时。但是，ViT的结构与NLP中的Transformer基本相同 ,如何在块内部(intra-patch)和块之间(inter-patch)明确相关性仍然是一个具有挑战性的问题。此外，在ViT中将相同大小的块（patch）视为相等。众所周知，每个块的复杂性是不同的，并且该特性目前尚未得到充分利用。

3.2 High-level Vision

最近，人们对采用Transformer执行High-level计算机视觉任务（例如对象检测，车道检测和分段）的兴趣日益增加。在本节中，我们将对这些方法进行回顾。

3.2.1 Object Detection

根据采用Transformer体系结构的模块，可以将基于Transformer的目标检测方法粗略地分为neck-based, head-based 和 framework-based的方法。

多尺度特征融合模块（在现代检测框架中称为neck），例如特征金字塔网络（FPN），已广泛用于目标检测中，以实现更好的检测性能。张etc 建议传统方法无法交互跨尺度特征，因此提出了特征金字塔transformer（FPT）来充分利用跨空间和尺度的特征相互作用。FPT由三种类型的Transformer组成，即self-transformer, grounding transformer 和 rendering transformer，它们分别对特征金字塔的self-level, top-down 和 bottom-up路径的信息进行编码。FPT基本上利用Transformer中的自注意模块来增强特征金字塔网络的特征融合。

预测头对于物体检测器起着重要的作用。先前的检测方法通常利用单个视觉表示（例如边界框和角点）来预测最终结果。Chi等提出了桥接视觉表示（Bridging Visual Representations --BVR），通过多头关注模块将不同的异构表示(heterogeneous representations)组合成一个单一的表示。具体来说，将主表示作为query输入，将辅助表示作为key输入。通过类似于Transformer中的注意模块，可以获得用于主表示的增强功能，该功能将来自辅助表示的信息桥接起来并有利于最终检测性能。

与上述利用Transformer的方法增强了现代检测器的特定模块不同，Carion 重新设计了目标检测框架，并提出了detection Transformer（DETR），它是一个简单且完全端到端的目标探测器。DETR将目标检测任务视为一个直观的集合预测问题，摆脱了传统的手工制作组件，例如锚点生成和非最大抑制（NMS）后处理。

如图6所示，DETR从CNN主干开始以从输入图像中提取特征。为了用位置信息补充图像特征，将固定的位置编码添加到平坦的十个特征中，然后再馈入编码解码器转换器。Transformer解码器将编码器的embedding与N个学习的positional endcodings（object queries）一起使用，并生成N个output embeddings，其中N是预定义参数，通常大于图像中对象的数量。最终预测是通过简单前馈网络（FFN）计算的，其中包括边界框坐标和类别标签以指示对象的特定类别或没有对象。与原始Transformer顺序生成预测的原始Transformer不同，DETR同时解码N个对象。DETR采用两部分匹配算法来分配预测的和真实的对象。如方程式（11）所示。匈牙利损失(Hungarian loss)被用来计算所有匹配对象对的损失函数。

其中y和yˆ分别是ground truth和目标的预测，σˆ是最优分配，ci和P^(Ci)是目标类别标签和预测标签，bi和b^(i)分别是ground truth和预测边界框，DETR在物体检测方面表现出令人印象深刻的性能，其精度和速度与COCO基准上广受欢迎且与公认的Faster R-CNN基线相当。

DETR是基于Transformer的目标检测框架的新设计，为社区开发完整的端到端检测器提供了参考。但是，vanilla DETR也面临一些挑战，例如，训练时间较长，小目标的性能较差。Zhu等人提出的Deformable DETR是解决上述问题的一种流行方法，并且大大提高了检测性能。代替通过原始的多头注意力在Transformer中查看图像特征图上的所有空间位置，建议使用可变形注意模块（deformable attention module）来关注参考点周围的一小组关键位置。这样，大大降低了计算复杂度，也有利于快速收敛。更重要的是，可变形注意模块可轻松应用于融合多尺度功能。与DETR相比，可变形DETR的性能更好，训练成本降低了10倍，推理速度提高了1.6倍。deformable DETR还应用了一些其他改进，包括有效的迭代边界框优化方法和two-stage方案，从而进一步提高了性能。

针对DETR的高计算复杂性问题，Zheng等人提出了一种自适应聚类变压器（Adaptive Clustering Transformer--ACT）来减少预训练的DETR的计算成本，而无需任何训练过程。 ACT使用局部敏感度哈希方法(locality sensitivity hashing method)自适应地对queries特征进行聚类，并将注意力输出广播到由所选原型表示的queries。通过将预训练的DETR模型的自我注意模块替换为ACT，而无需进行任何重新训练，几乎不降低精度，可以显着降低计算成本。此外，可以通过使用多任务知识蒸馏（multi-task knowledge distillation--MTKD）方法进一步降低性能下降，该方法利用原始Transformer以少量的fine-tuning时间来蒸馏ACT模块。

Sun等人研究了DETR模型的慢收敛问题，并揭示了Transformer解码器中的交叉注意模块是主要原因。为此，提出了DETR的纯编码器（encoder-only）版本，并且在检测精度和训练收敛性上实现了相当大的改进。此外，设计了一种新的二分匹配方案，以实现更稳定的训练和更快的收敛。提出了两种基于Transformer的集合预测模型，以改进具有特征金字塔的纯编码器DETR，即TSP-FCOS和TSP RCNN，它们比原始DETR模型具有更好的性能。

Dai等人在自然语言处理中受到预训练Transformer方案的启发，提出了一种用于目标检测的无监督预训练DETR（UP-DETR）的方法。具体而言，提出了一种新的无监督借口任务，即随机query patch检测，以预训练DETR模型。通过这种方案，UP-DETR大大提高了在相对较小的数据集（即PASCAL VOC）上的检测精度。在具有足够训练数据的COCO基准上，UP-DETR仍然无法完成DETR，这证明了无监督的预训练计划的有效性。

3.2.2 Segmentation

DETR 可以自然扩展到全景分割任务，方法是在解码器上附加一个掩码头（mask head），从而获得有竞争力的结果。 Wang等提出了Max-DeepLab来直接预测通过mask transformer实现的全景分割结果，而无需替代诸如box detection之类的子任务。与DETR相似，Max-DeepLab以端到端的方式简化了全景分割任务，并直接预测了一组不重叠的masks和相应的标签。使用全景率（PQ）样式损失来训练模型。此外，与现有的将transformer堆叠在CNN主干网上方的方法不同，Max-DeepLab采用双路径框架（dual-path framework）将CNN与transformer更好地结合在一起。

Wang等提出了一种基于transformer的视频实例分割（transformer-based video instance segmentation --VisTR）模型，该模型以图像序列作为输入并产生相应的姿态预测结果。提出了实例序列匹配策略，为预测分配ground truth。要获取每个实例的掩码序列，VisTR利用实例序列分割模块从多个帧中累积掩码特征，并使用3D CNN分割掩码序列。

也有尝试将transformer用于姿态分割，这是基于DETR全景分割模型的。所提出的Cell-DETR还添加了skip connections，以在分段头中从主干CNN和CNN解码器桥接功能，以获得更好的融合功能。 Cell-DETR显示了来自显微图像的cell实例分割的SOTA性能。

Zhao等设计了一种新颖的Transformer架构（Point Transformer）来处理点云。所提出的自我注意层对于点集的排列是不变的，因此适用于点集处理任务。 Point Transformer对于3D点云的语义分割任务显示出强大的性能。

3.2.3 Lane Detection

Liu等基于PolyLaneNet 提出通过学习transformer网络的全局上下文来提高曲线车道检测的性能。与Poly LaneNet相似，提出的方法（LSTR）将车道检测视为将车道与多项式拟合的任务，并使用神经网络预测多项式的参数。为了捕获用于车道和全局环境的细长结构，LSTR将transformer网络引入到架构中，以处理通过卷积神经网络提取的低级特征。此外，LSTR使用匈牙利损失来优化网络参数。与仅使用0.2倍参数的PolyLaneNet相比，LSTR可以实现2.82％的更高精度和3.65倍FPS。transformer网络、卷积神经网络和匈牙利损失的结合实现了一个微小，快速而精确的车道检测框架。

3.3 Low-level Vision

除了High-level Vision任务外，很少有研究将transformer应用于low-level vision领域，例如图像超分辨率，图像生成等。与以标签或框为输出的分类，分割和检测相比，low-level vision任务通常将图像作为输出（例如，高分辨率图像或去噪图像），这更具有挑战性。

Parmar等迈出第一步，推广transformer模型来制定图像转换和生成任务，并提出Image transformer。 Image transformer由两部分组成：用于提取图像表示的编码器和用于生成像素的解码器。对于值为0 - 255的每个像素，将学习256×d维embeddings，以将每个值编码为d维向量，将其作为编码器的输入。编码器和解码器的架构与《Advances in neural information processing systems》中的相同。解码器中每一层的详细结构如图7所示。

每个输出像素q0是通过计算输入像素q与先前生成的像素m1，m2，...之间的自注意力而生成的，并带有position embedding p1，p2，...。 ..对于图像条件生成，例如超分辨率和修复，使用了编码器-解码器体系结构，其中编码器的输入是低分辨率图像或损坏的图像。对于无条件和分类条件图像生成（即图像噪声），纯解码器用于输入噪声向量。由于用于解码器的输入是先前生成的像素，当生成高分辨率图像时，它将产生大量的计算成本，因此提出了一种局部自注意方案，该方案仅使用最近生成的像素作为解码器的输入。结果，Image transformer可以在图像生成和翻译任务上使用基于CNN的模型来获得竞争性能，这表明基于transformer的模型在low-level vision任务上的有效性。

与将每个像素用作transformer模型的输入相比，最近的工作使用patch（像素集）作为输入。杨等提出了用于图像超分辨率的Texture transformer网络（TTSR）。他们在基于参考的图像超分辨率问题中使用了转换器体系结构，该问题旨在将相关纹理从参考图像转移到低分辨率图像。以低分辨率图像和参考图像作为查询Q和关键字K，计算Q中每个patch qi和K中ki之间的相关性ri，j，

然后提出了一种硬性注意力（hard-attention）模块，以利用参考图像根据参考图像选择高分辨率特征V以匹配低分辨率图像。hard-attention map是通过下式计算

那么来自的最相关的参考patch是ti = ，其中T中的ti是转移的特征。之后，使用软注意力模块将V转移到低分辨率特征F。可以通过以下方式计算软注意力：

因此，将高分辨率纹理图像转换为低分辨率图像的公式可以表示为：

其中Fout和F表示低分辨率图像的输出和输入特征，S是柔和注意力，T是从高分辨率纹理图像传递的特征。通过引入基于transformer的体系结构，TTSR可以成功地将纹理信息从高分辨率参考图像传输到低分辨率图像，以进行超分辨率任务。

上述方法在单个任务上使用变压器模型，而Chen等人提出了图像处理transformer（Image Processing Transformer--IPT），通过使用大规模的预训练来充分利用transformer的优势，并在包括超分辨率，降噪和去除降水在内的多个图像处理任务中实现SOTA性能。

如图8所示，IPT由multi-head、encoder、decoder和multi-tails组成。介绍了用于不同图像处理任务的多头多尾结构和任务嵌入。将特征分为patch以放入编码器-解码器体系结构，然后将输出reshape为具有相同大小的功能。由于transformer模型在大规模预训练中显示出优势，因此IPT使用ImageNet数据集进行预训练。具体来说，通过手动添加噪声，雨滴或下采样将ImageNet数据集中的图像降级为生成的损坏图像。然后将降级的图像用作IPT的输入，并将干净的图像作为输出的优化目标。还引入了一种自我监督的方法来增强IPT模型的泛化能力。然后，使用相应的头，尾和任务嵌入对每个任务微调训练后的模型。 IPT极大地提高了图像处理任务的性能（例如，图像降噪任务中的2dB），这证明了基于transformer的模型在low-level vision领域中的巨大潜力。

3.4 Video Processing

transformer在基于序列的任务（特别是在NLP任务）上表现出奇的出色。在计算机视觉中，视频任务中青睐时空维度信息。因此，transformer适用于许多视频任务，例如帧合成，动作识别和视频检索。

3.4.1 High-level Video Processing

Human Action Recognition

视频人类行为任务是指识别和定位视频中的人类行为。上下文的内容在识别人类行为中起着至关重要的作用。 Rohit等提出了一种行为transformer来对感兴趣的人和周围事物之间的潜在关系进行建模。具体来说，I3D用作提取高级特征图的主干。通过ROI Pooling从中间feature maps中提取的features被视为查询（Q）。关键字（K），值（V）由中间特征计算得出。自我注意机制在三个组成部分上进行，并输出分类和回归预测。Lohit等提出了一个可解释的微分模块，称为时间transformer网络，以减少类内方差并增加类间方差。Fayyaz和Gall提出了一个时间transformer，以在弱监督的环境下执行动作识别任务。

Face Alignment

基于视频的面部对齐任务旨在定位面部标志。时间依赖性和空间信息对于最终性能很重要。但是，前一种方法无法同时捕获连续帧上的时间信息和静止帧上的互补空间信息。刘等人使用双流transformer网络分别学习时间和空间特征，以端到端的方式共同优化两个流，并对特征进行加权以获得最终预测。

Video Retrieval

基于内容的视频检索的关键是找到视频之间的相似性。为了克服缺点，仅利用视频级功能的图像级，Shao等人建议使用transformer来建模长范围语义依赖性。此外，引入了有监督的对比学习策略用于hard negative mining。基准数据集上的结果证明了性能和速度优势。 Gabeur等提出了一种多模式transformer，以学习不同的跨模式提示，以表示视频。

Acitivity Recognition

活动识别是指识别一组人的活动。解决此问题的前一种方法是基于各个参与者的位置。 Gavrilyuk等提出了一个actor-transformer架构来学习表示。actor-transformer将2D和3D网络生成的静态和动态表示作为输入。transformer的输出是预测活动。

Video Object Detection

要从视频中检测对象，需要全局和局部信息。 Chen等引入了内存增强的全局局部聚集（memory enhanced global-local aggregation--MEGA）以捕获更多内容。表示性特征可增强整体性能并解决无效和不足的问题。 Yin等提出了一种时空transformer来聚合时空信息。与另一个空间特征编码组件一起，这两个组件在3D视频对象检测任务中表现良好。

Multi-task Learning

未修剪的视频通常包含许多与目标任务无关的帧。因此，挖掘相关信息并删除冗余信息至关重要。为了应对在未修剪的视频上进行多任务学习，Seong等人采用视频多任务transformer网络提取信息。对于CoVieW数据集，任务是场景识别，动作识别和重要性得分预测。ImageNet和Places365上的两个经过预先训练的网络提取了场景特征和对象特征。堆叠多任务transformer以借助类转换矩阵（class conversion matrix --CCM）融合功能。

3.4.2 Low-level Video Processing

Frame/Video Synthesis

帧合成任务是指在两个连续帧之间或帧序列之后合成帧。视频合成任务旨在合成视频。刘等提出了ConvTrans模型，该模型包括五个部分：特征嵌入，位置编码，编码器，查询解码器和综合前馈网络。与基于LSTM的研究相比，ConvTransformer通过更可并行化的架构实现了更高的结果。 Schatz等使用循环Transformer网络从新颖的观点合成人类的行为。

Video Inpainting

视频修补任务旨在完成帧中的缺失区域。这项艰巨的任务需要沿空间和时间维度合并信息。 Zeng等为此任务提出了一个时空transformer网络。所有输入帧均作为输入，并被并行填充。时空对抗损失用于优化transformer网络。

3.4.3 Multimodality

Video Captioning/Summarization

视频字幕任务的目标是为未修剪的视频生成文本。事件检测和描述模块是两个主要部分。 zhou等提出了一种端到端的优化transformer来解决密集的视频字幕任务。编码器将视频转换为表示形式。提议解码器根据编码生成事件提议。字幕解码器使用提案掩盖编码并输出描述。 Bilkhu等使用C3D和I3D网络提取特征并使用transformer生成预测。该算法在单个摘要任务和密集摘要任务上均表现良好。 Li等利用基于注意力纠缠（ETA）模块的transformer来解决图像字幕任务。Sun等提出了一种视觉语言框架来学习表示而无需监督。该模型可以应用于许多任务，包括视频字幕，动作分类等。

3.5 Self-attention for Computer Vision

在以上各节中，我们回顾了将transformer体系结构用于视觉任务的方法。自我注意是transformer的关键部分。在本节中，我们深入研究了基于自我注意的方法来应对计算机视觉中的挑战性任务，例如语义分割，姿势分割，对象检测，关键点检测和深度估计。

该部分内容请详见《transformer解读》的前几页ppt，里面有关于attention与self-attention的详细介绍。

3.6 Efficient Transformer

尽管Transformer模型在各种任务中都取得了成功，但仍需要高内存和计算资源，这阻碍了在资源受限的设备（例如，手机端）上的实现。在本节中，我们回顾有关压缩和加速变压器模型以有效实施的研究，包括网络修剪，低秩分解，知识分配，网络量化，压缩体系结构设计。

表4列出了一些用于压缩基于Transformer的模型的代表性作品。

3.6.1 Pruning & Decomposition

在基于Transformer的预训练模型（例如BERT）中，并行进行多个注意操作以独立地建模不同标记(tokens)之间的关系，而对于特定任务则不需要所有的heads。Michel等从经验上观察到，可以在测试时去除很大比例的注意力头，而不会显着影响性能。所需的attention heads在不同的层上有所不同，甚至对于某些层来说，一个 head就足够了。考虑到attention heads上的冗余，在[85]中定义了重要性分数以估计每个head对最终输出的影响，并且可以删除不重要的head以进行有效部署。 Dalvi等进一步从两个角度分析了预训练Transformer模型中的冗余，即一般冗余和特定于任务的冗余。遵循彩票假设( lottery ticket hypothesis)等，Prasanna等分析了BERT中的彩票，并表明在基于Transformer的模型中也存在良好的子网。在[96]中减少了FFN层和attention heads，以实现高压缩率。

除了Transformer模型的宽度外，还可以减小深度（即层数）以加快推理过程。与可以按同等方式计算Transformer模型中不同attention heads的情况不同，由于下一层的输入取决于前一层的输出，因此必须顺序计算不同的层。 Fan等提出了一种逐层丢弃的策略来规范模型的训练，然后在测试阶段将整个层次一起删除。考虑到不同设备中的可用资源可能会有所不同，Hou等人提出自适应地减小预定义Transformer模型的宽度和深度，并同时获得具有不同尺寸的多个模型。重要的attention heads和神经元通过重新布线机制在不同的子网络之间共享。

除了直接在Transformer模型中丢弃零件模块的修剪方法之外，矩阵分解还旨在根据低秩假设，对具有多个小矩阵的大矩阵进行近似。例如，Wang等分解Transformer模型中的标准矩阵乘法并获得更有效的推论。

3.6.2 Knowledge Distillation

知识蒸馏的目的是通过从巨大的教师网络中转移知识来训练学生网络。与教师网络相比，学生网络通常具有较薄和较浅的体系结构，更易于在资源受限的资源上部署。神经网络的输出和中间特征也可以用于将有效信息从教师传递给学生。Mukherjee等人基于Transformer模型，使用经过预训练的BERT 作为老师，借助大量未标记的数据来指导小型模型的训练。Wang等训练学生网络，以模仿预训练教师模型中的自我注意层的输出。values的点积被引入作为指导学生的一种新的知识形式。在[127]中也引入了一个助教[86]，它可以减小大型预训练的Transformer模型与紧凑的学生网络之间的差距，从而使模仿变得更加容易。考虑到Transformer模型中的各种类型的层（即，自我注意层，嵌入层，预测层），Jiao等人设计不同的目标功能，以将知识从教师传授给学生。例如，学生模型的嵌入层的输出将通过MSE损失模仿教师的输出。还施加了可学习的线性变换，以将不同的特征映射到同一空间。对于预测层的输出，采用KL散度来度量不同模型之间的差异。

3.6.3 Quantization

量化的目的是减少表示网络权重或中间特征的位数。通用神经网络的量化方法已得到充分讨论，其性能可与原始网络媲美。最近，如何对Transformer模型进行特殊量化已经引起了人们的广泛关注。 Shridhar等建议将输入嵌入到二进制高维向量中，然后使用二进制输入表示来训练二进制神经网络。 Cheong等通过低位（例如4位）表示来表示Transformer模型中的权重。zhao等对各种量化方法进行了实证研究，结果表明k均值量化具有巨大的发展潜力。针对机器翻译任务，Prato等人提出了一种完全量化的Transformer，这是第一个8位质量模型，而论文中声称没有翻译质量损失。

3.6.4 Compact Architecture Design

除了将预定义的Transformer模型压缩为小型Transformer模型外，一些工作还尝试直接设计紧凑模型。Jiang等通过提出一个新的模块，称为基于跨度的动态卷积(span-based dynamic convolution)，简化了自注意力的计算，该模块结合了完整的连接层和卷积层，如图9所示。

卷积运算可计算出不同的标记（tokens），这比标准Transformer中密集的全连接层有效得多。深度卷积还用于进一步降低计算成本。 Interesting hamburger layers在[1]中提出，它使用矩阵分解来代替原始的自我注意层。矩阵分解可以比标准的自我注意操作更有效地计算，同时很好地反映了不同标记之间的依赖性。

Transformer模型中的自注意操作计算给定序列中不同输入标记的表示之间的点积（图像识别任务中的patch），其复杂度为O（N），其中N为序列的长度。近来，大量方法致力于将复杂度降低到O（N），以使Transformer模型可扩展到长序列。例如，Katharopoulos等将自我注意近似为内核特征图的线性点积，并通过递归神经网络揭示标记之间的关系。Zaheer等将每个标记（tokens）视为图形中的一个顶点，两个标记之间的内积计算称为边。启发式图论和各种稀疏图被组合在一起以近似Transformer模型中的稠密图，这也实现了O（N）的复杂度。从理论上讲，Yun等证明具有O（N）复杂度的稀疏Transformer足以反映标记之间的任何类型的关系并且可以进行通用逼近，这为进一步研究具有O（N）复杂度的Transformer提供了理论保证。

4. Conclusions and Future Prospects

与卷积神经网络相比，由于其竞争性能和巨大的潜力，Transformer正成为计算机视觉领域的热门话题。正如综述所概述的那样，为了揭示和利用Transformer的能力，近年来提出了许多解决方案。这些方法在各种视觉任务（包括基本图像分类，high-level vision，low-level vision和视频处理）上均表现出出色的性能。然而，用于计算机视觉的Transformer的潜力尚未得到充分的探索，还有一些挑战有待解决。尽管研究人员已经提出了许多基于Transformer的模型来解决计算机视觉任务，但是这些工作是开创性的解决方案，还有很大的改进空间。例如，ViT 中的Transformer架构遵循NLP 的标准Transformer。专门针对CV的改进版本仍有待探索。此外，还需要将Transformer用于除上述任务之外的更多任务。

此外，大多数现有的Visual transformer模型都设计用于处理单个任务。许多NLP模型（例如GPT-3）已显示出Transformer可以在一个模型中处理多个任务的能力。 CV领域的IPT 也能够处理多种low-level vision任务，例如超分辨率，图像降噪和排水。我们相信，一个模型可以涉及更多任务。

Last but not the least，为CV开发有效的Transformer模型也是一个未解决的问题。Transformer模块通常非常庞大且计算量很大，例如，基本的ViT模型需要18B FLOP来处理图像。相比之下，轻巧的CNN模型Ghost Net仅用大约600M FLOP就能达到类似的性能。尽管已经提出了几种压缩Transformer的方法，但是它们的复杂性仍然很大。这些最初为NLP设计的方法可能不适用于CV。因此，高效的Transformer模型是在资源受限的设备上部署Visual Transformer的基础。

在公众号中回复 transformer 即可下载论文原文与本文pdf版。

本文编辑不易，希望给个在看与点赞。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：
学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

你可能感兴趣的:(计算机视觉,机器学习,人工智能,xhtml,深度学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

视觉Transformer综述

圈里有高质量教程资料、答疑解惑、助你高效解决问题觉得有用，麻烦给个赞和在看~

你可能感兴趣的:(计算机视觉,机器学习,人工智能,xhtml,深度学习)

圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~