SophiaCV

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述

点上方计算机视觉联盟获取更多干货

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：作者丨闪闪红星闪闪@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/433048484

编辑丨极市平台

985人工智能博士笔记推荐

周志华《机器学习》手推笔记正式开源！附pdf下载链接，Github2500星！

Transformer 是一种基于注意力的编码器-解码器架构，它彻底改变了自然语言处理领域。受这一重大成就的启发，最近，在将类似于 Transformer 的结构应用于计算机视觉 (CV) 领域上进行了一些开创性工作，这已经证明了它们在各种 CV 任务上的有效性。与现在的卷积神经网络 (CNN) 相比，视觉 Transformer (ViT) 依靠有竞争力的建模能力，在 ImageNet、COCO 和 ADE20k 等多个基准上取得了十分优异的性能。在本文中，作者全面回顾了针对三个基本 CV 任务（分类、检测和分割）的一百多种不同的视觉 Transformer，其中提出了一种分类法，根据它们的动机、结构和使用场景来组织这些方法。由于训练设置和面向任务的差异，作者还在不同的配置上评估了这些方法，以方便直观地进行比较，而不仅仅是各种基准测试。此外，作者披露了一系列基本但未经开发的方面，这些方面可能使 Transformer 从众多架构中脱颖而出，例如，不充分的高级语义嵌入以弥合视觉和顺序 Transformer 之间的差距。最后，提出了三个有前景的未来研究方向，以供进一步研究。

1. 论文和代码地址

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第1张图片

论文题目：A Survey of Visual Transformers

发表单位：中国科学院、东南大学、联想研究院、联想

论文地址：arXiv:2111.06091

提交时间：2021年11月11日

2. 动机

ViT 发展速度十分迅速！

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第2张图片

图1. Transformer 在NLP和CV中的应用和发展进程

如上图左边所示，Transformer 逐渐成为自然语言处理 (NLP) 的主要深度学习模型。从上图右图所示，在过去的一年中，针对不同的领域提出了数百种基于 Transformer 的视觉模型。

这篇综述和以往综述有什么区别？

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第3张图片

图2. ViT 的分类

去年发表了几篇关于 Transformer 的评论，其中 Tay 等人回顾了 NLP 中 Transformers 的效率，Khan 等人和 Han 等人总结了早期的视觉 Transformer 和之前的注意力模型，以及一些没有系统方法的语言模型。最近对 Transformer 的综述是 Lin 等人介绍的，提供了对 Transformer 各种变体的系统综述，并粗略地提到了它在视觉上的应用。基于这些观察，本文旨在全面回顾最近的 ViT，并系统地对这些现有方法进行分类：

全面性和可读性。 本文全面综述了100多种 ViT 的三个基本任务：分类、检测和分割。本文选择并分析了50多个代表性模型，如上图所示，本文不仅从一个角度对每个模型进行了详尽的分析，而且还通过渐进、对比和多视角分析等方式建立了它们之间的内在联系。
直观的比较。 由于这些 ViT 在各种任务中遵循不同的训练方案和超参数设置，因此本次调查通过在不同的数据集和限制上将它们分开来呈现多个横向比较。更重要的是，本文总结了为每个任务设计的一系列有前景的组件，包括：用于主干的具有层次结构的浅层局部卷积，用于颈部检测器的具有稀疏注意力的空间先验加速，以及用于分割的通用掩码预测方案。
深入分析。 本文进一步在以下方面提供了重要的见解：从序列到视觉任务的转换过程，Transformer 与其他视觉网络之间的对应关系，以及不同任务中采用的可学习嵌入（即类token、对象查询、掩码嵌入）的相关性。最后，本文概述了未来的研究方向。例如，编码器-解码器的 Transformer 主干可以通过学习的嵌入来统一三个子任务（分类、检测和分割）。

3. 最初的 Transformer

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第4张图片

图3. Transformer 中的注意力层

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第5张图片

图4. Transformer 整体架构

最初的Transformer架构如上图4所示，由以下3个模块组成：

多头注意力机制（MHSA）

每个注意力层的细节如上图3所示。

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第6张图片

逐位置前馈网络（FFN）

位置编码

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第7张图片

4. 分类中的 Transformer

受到在 NLP 中 Transformer 优异发展的启发，一些研究人员试图将 Transformer 引入图像分类。与传统CNN相比，Vision Transformer（ViT）首次在主流分类基准上实现了类似甚至更高的性能。本节全面回顾了 2021 年 6 月之前发布的 40 多个 Transformer 主干，并根据其动机和实现将它们分为六类，如下图 5 所示。

基于本文提出的分类，首先介绍了 ViT，用于图像分类的原始视觉 Transformer。然后讨论了 Transformer Enhanced CNN 方法，该方法利用Transformer来增强CNN主干的远程依赖性。Transformer 具有很强的全局建模能力，但在早期忽略了局部信息。因此，CNN Enhanced Transformer 方法利用适当的卷积归纳偏置来增强 Transformer，而 Local Attention Enhanced Transformer 方法重新设计补丁分区和注意力块以增强 Transformer 的局部性并保持无卷积架构。此外，CNN 在性能和计算效率方面从经验上受益于分层和深层结构。受此启发，提出了 Hierarchical Transformer 和 Deep Transformer 方法。前者用金字塔茎代替固定分辨率的柱状结构，而后者防止注意力图过于平滑并增加其在深层的多样性。此外，本文还回顾了当前可用的视觉 Transformer 自监督方法。最后，作者评估这些 Transformer 的性能，分析有希望的改进，并回答一个常见问题以供进一步调查。

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第8张图片

图5. ViT骨干的分类

4.1 最初的 ViT

ViT 是 Transformer 在图像分类中的第一个骨干。

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第9张图片

图6. ViT 架构

4.2 Transformer 增强的 CNN

Transformer 有两个关键部分：MHSA 和 FFN。最近，Cordonnier 等人已经证明卷积层可以通过具有足够头数的 MHSA 来近似。Dong等人已经表明，MHSA 可能在没有跨层连接和 FFN时对“token一致性”具有很强的归纳偏置。因此，Transformer 在理论上具有比 CNN 更强大的建模能力。然而，它不可避免地具有沉重的计算成本，特别是对于浅层，由自注意力机制带来，随着特征分辨率的二次方增长。与之前基于注意力的方法类似，一些方法尝试将 Transformer 插入 CNN 主干或用 Transformer 层替换部分卷积块。例如 VTs 和 BoTNet。

4.3 CNN 增强 Transformer

归纳偏差可以表示为一组关于数据分布或解空间的假设，其在卷积中的表现是局部性和方差平移。局部性侧重于空间上接近的元素，并将它们与远端隔离。平移不变性表明在输入的位置之间重复使用相同的匹配规则 [97]。由于局部邻域内的协方差很大，并且在整个图像中趋于逐渐平稳，这些卷积偏差可以有效地处理图像数据。然而，强大的偏差也限制了 CNN 具有足够数据集的上限。最近的工作试图利用适当的卷积偏差来增强 Transformer 并加速其收敛。 这些应用可以概括如下：软近似（DeiT、ConViT）、直接局部性处理（ CeiT、LocalViT）、位置编码的直接替换（CPVT、ResT）和结构组合（Early Conv. 、CoAtNet）。作者逐一对这些模型进行了简要叙述。

4.4 局部注意力增强的 Transformer

ViT 将输入图像视为一个补丁序列。这种粗糙的补丁嵌入过程忽略了语言和图像之间的差距，这可能会破坏图像的局部信息。作为局部提取器，卷积通过相对固定的滤波器聚合特征。这种模板匹配过程可以有效地处理大多数小数据集，但在处理大型数据集时面临表示的组合爆炸。与卷积相比，局部注意力机制可以根据局部元素之间的关系动态生成注意力权重。为了增强局部特征提取能力并保留无卷积结构，一些工作（Swin Transformer、 TNT block、Twins、T2T-ViT）尝试通过局部自注意力机制来适应补丁结构。随后作者对一些 ViT 变体进行了简要阐述，分别是：TNT、Swin Transformer、Twins& ViL和 VOLO。

4.5 分层 Transformer

由于 ViT 在整个网络中以固定分辨率继承了原始的柱状结构，因此它忽略了细粒度特征，并带来了昂贵的计算成本。继分层 CNN 之后，最近的工作（CvT、PVT、ViL、T2T-ViT、PiT）将类似的结构应用于 Transformer 中。

4.6 深度 Transformer

根据经验，增加模型的深度使网络能够学习更复杂的表示。最近的工作将这种深度结构应用于 Transformer 并进行大量实验，通过分析跨 patch（Diverse Patch）和跨层（Refiner、DeepViT）的相似性以及残差块（CaiT）的贡献来研究其可扩展性。在深度 Transformer 中，更深层的特征往往不太具有代表性（注意力崩溃，由 DeepViT 发现），并且 patch 被映射到难以区分的潜在表示（补丁过度平滑，由 Diverse Patch 发现）。为了弥补上述限制，这些方法也多方面提出了相应的解决方案。本文简要介绍了CaiT、DeepViT & Refiner和 Diverse Patch。

4.7 有自监督学习的 Transformers

自监督 Transformers 在 NLP 中取得了成功，但受监督的预训练 Transformers 仍占据 CV 领域的主导地位。最近的工作还试图在生成性（iGPT、BEiT）和辨别性（MoCo v3、DINO）中为视觉 Transformer 设计各种自监督学习方案。

4.8 讨论

1）实验评估和对比分析

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第10张图片

表1. 视觉 Transformer 在IMAGENET-1K、CIFAR-10、CIFAR-100上的TOP-1准确率对比

根据本文的分类法，所综述的监督模型可分为六类。表一总结了 Transformer 在主流分类基准上的分类性能，并为每个型号指定了专用颜色。为了客观直观地评估它们，以下三幅图说明了它们在不同配置下在 ImageNet-1k 上的比较（例如，模型大小、FLOPs 和训练方案）。下图总结了在输入分辨率下，每个模型的性能。由于 FLOPs 在 Transformer 内随输入大小呈二次增长，下图（b）将 FLOPs 作为水平轴，重点关注其在更高分辨率下的性能。下图（c）重点介绍带有外部数据集的预训练模型。根据这些图，作者简要分析了有利于模型性能、效率和可扩展性的几项改进，如下所示：

一般来说，大多数结构改进的方法针对特定模型尺寸、问题或特定输入分辨率进行优化，而其它基本训练策略，如 DeiT 和 LV-ViT，更适用于各种模型、任务和输入。
局部性对于 Transformer 来说是不可或缺的，VOLO 和 Swin 分别在分类和密集预测任务中占主导地位。
卷积 patch 化茎（即使用卷积生成patch，如）和早期卷积阶段（CoAtNet）显著提高了 Transformer 的精度，尤其是在大型模型上，因为这样的组合可以为浅层的细粒度局部特征提供相互帮助。
深层 Transformer 潜力巨大，如 Refined-ViT 和 CaiT。然而，由于模型大小与通道维度成二次方增长，因此深度 Transformer 中它们之间的权衡值得进一步研究。
CeiT 和CvT 展示了显著的优势在训练小型或中型模型（0−40M）时，这表明这种用于轻量级模型的混合注意块值得进一步探索。

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第11张图片

图7

2）视觉变压器发展趋势综述

Transformer 骨干在去年兴起。当我们的系统学与这些模型的时间线相匹配时，可以清楚地追踪到 Transformer for image classification 的发展趋势（前面的图 1）。作为一种自注意力机制，视觉 Transformer 主要根据 NLP 中的 vanilla 结构（ViT 和 iGPT）或 CV 中基于注意力的模型（VTs 和 BoTNet）重新设计。

然后，许多方法开始将 CNN 的层次结构或深层结构扩展到视觉 Transformer。T2T-ViT、PVT、CvT 和 PiT 的共同动机是将层次结构转移到 Transformer 中，但它们执行下采样的方式不同。CaiT、Diverse Patch、DeepViT 和 Refiner 专注于深度 Transformer 中的问题。此外，一些方法转向内部组件以进一步增强先前 Transformer 中的图像处理能力，即位置编码、MHSA 和 MLP。

下一波 Transformer 是局部范式。他们中的大多数通过引入局部注意力机制或卷积将局部性引入 Transformer。如今，最新的监督式 Transformer 正在探索结构组合和缩放定律。除了有监督的 Transformers，自监督学习在视觉 Transformers 中占了很大一部分。然而，目前尚不清楚哪些任务和结构对 CV 中的自监督 Transformer 更有利。

3）浅谈替代方案

在视觉 Transformer 的开发过程中，最常见的问题是 Transformer 是否可以取代卷积。通过回顾过去一年的改善历史，没有性能不足的迹象。视觉 Transformer 已经从一个纯粹的结构回归到一个混合的形式，全局信息逐渐回归到一个与局部信息混合的阶段。 虽然 Transformer 可以等价于卷积，甚至比卷积具有更好的建模能力，但这种简单有效的卷积运算足以处理底层的局部性和低级语义特征。在未来，两者结合的思想将推动图像分类的更多突破。

5. 检测中的 Transformer

在本节中，作者详细介绍了用于目标检测的视觉 Transformer，它可以分为两类：作为颈部（neck）的 Transformer 和作为主干（backbone）的 Transformer。颈部检测器主要是基于 Transformer 结构的一种新表示，称为目标查询，即一组学习的参数均等地聚合全局特征。这些方法尝试在提高收敛速度或改进性能方面提供最佳融合范式。除了专门为检测任务设计的各种颈部外，一部分骨干检测器也考虑了特定的策略。最后，本文比较了它们之间的性能，然后分析了 Transformer 检测器的一些潜在的改进。

5.1 Transformer 颈部

作者首先回顾 DETR，这是最开始的一个 Transformer 检测器，它提供了一个新的表示目标查询，将对象检测制定为一个集合预测问题。由于其对小物体的准确性低和收敛速度慢，人们从三个方面努力改进这种 Transformer 检测器：稀疏注意力、空间先验和结构重设计。此外，本文还回顾了自监督的应用。

最初的检测器：DEtection with TRansformer (DETR)

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第12张图片

图8

DETR是第一个端到端的 Transformer 检测器，它消除了手工设计的表示和非极大值抑制（NMS）后处理，通过引入目标查询和集合预测直接检测所有对象。具体地，DETR 使用编码器-解码器 Transformer 作为颈部，以及使用 FFN 作为预测头（如上图所示）。

稀疏注意力的 Transformer

在 DETR 中，解码器嵌入和全局特征之间的密集交互会消耗大量计算资源并减慢 DETR 的收敛速度。因此，一些努力旨在设计依赖于数据的稀疏注意力来解决这个问题，例如 Deformable DETR 和 ACT。接着作者描述了在稀疏注意力中的几个重要改进：Deformable DETR、ACT、SMCA、Conditional DETR、Two-Stage Deformable DETR 和 Efficient DETR。

重新设计结构的 Transformer

除了聚焦于交叉注意力的改进外，一些工作还重新设计了仅编码器的结构来直接避免解码器的问题。例如，TSP 继承了集合预测的思想，并放弃了解码器和目标查询。YOLOS 结合了 DETR 的编码器-解码器颈部和 ViT 的仅编码器主干，来重新设计仅编码器的检测器。

自监督学习的 Transformer 检测器

受到自然语言处理中取得成功的预训练 Transformer 的启发，Dai 等人提出无监督预训练DETR（UP-DETR）从三个方面辅助监督训练：

从给定图像中随机裁剪的一个 path 分配给所有目标查询。解码器的目标是定位 patch 位置。
为了避免在预训练中对定位的过度偏见，提出了一个辅助重建任务来保留有判别性的特征。
基于单个查询 patch，多查询定位将多个 patch 分配给不同的目标查询，以模仿多目标检测任务并加速收敛。每个 patch 查询都是通过掩码注意力和目标查询混洗独立预测的。

UP-DETR 在小数据集上比 DETR 获得了更高的精度和更快的收敛速度，甚至在训练数据充足的情况下性能更好。

5.2 Transformer 骨干

作者在本文中回顾了许多用于图像分类的基于 Transformer 的主干。这些主干可以很容易地合并到各种框架中（例如，MaskR-CNN、RetinaNet、DETR 等）来执行密集预测任务。除了一般的改进外，它们中的一部分也有利于改进密集预测任务。层次结构将 Transformer 构造为一个从高分辨率到低分辨率的过程来学习多尺度特征，如 PVT。局部增强结构将主干构建为局部到全局的组合，以有效地提取短程和长程的视觉依赖性并避免二次计算开销，例如 Swin-Transformer、ViL 和 Focal Transformer。下表3在密集预测任务中比较了基于视觉 Transformer 框架的模型。基于 Transformer 的主干比当前 CNN 模型的性能高 2-6.8%，这证明了 Transformer 在密集预测方面的有效性。

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第13张图片

表2. Transformer 颈和 CNN 在 COCO 2017 验证集上的性能

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第14张图片

表3. 不同模型在密集预测任务的性能对比

与 FPN 类似，Zhang 等人通过结合非局部 [14] 和多尺度特征的特性，提出了一种专用于密集预测任务的特征金字塔 Transformer（FPT）[75]。它利用三个注意力组件来建模跨空间和尺度的交互，包括自注意力、自上而下的交叉注意力和自下而上的跨通道注意力。FPT 作为密集预测任务的通用主干，在许多 SOTA 模型上获得进一步提升。

5.3 讨论

本节在表2和表3中简要比较和分析了 Transformer 检测器。对于 Transformer 颈，本文只关注它们在单尺度特征结构中的 FLOPs，而不是多尺度特征，因为它们应用了不同的层数。从稀疏注意力（SA）的角度来看，Deformable DETR 减少了 8 GFLOPs 并缩短了 12 倍的训练时间，而 ACT-DC5 将计算成本从 187 GFLOPs 降低到 156 GFLOPs，并且性能损失很小。从空间先验（SP）的角度来看，one-stage 检测器显示地将空间先验与目标查询分开，带来快速收敛和高精度。SMCA 和 Conditional DETR 在 108 个训练 epoch 时分别达到了 42.7% 和 43% 的 mAP。two-stage 检测器和 TSP-RCNN 都用 proposals 替换了学习到的目标查询。这种本质上相同但结构上不同的方法显着提高了检测器的准确性。从多尺度 (MS) 特征的角度来看，它可以补偿 Transformer 在小物体检测上的性能。例如，Deformable DETR 和 SMCA 将 DETR 提高了 5.2% 和 3.1% 。仅编码器的结构减少了 Transformer 层数，但过度增加了 FLOPs，例如具有 537 GFLOPs 的 YOLOS-B。相比之下，编码器-解码器的结构是 GFLOPs 和层数之间的一个很好的权衡，但更深的解码器层可能会导致长时间的训练过程和过度平滑的问题。因此，将 SA 集成到具有 MS 和 SP 的深度解码器中值得进一步研究。

对于分类，有许多主干的改进，但很少有工作涉及密集预测任务。基于本文提出的分类法，很容易将现有方法分为两部分：分层的 Transformer 和局部增强的 Transformer。未来，作者预计 Transformer 主干将加入深度高分辨率网络来解决密集预测任务。

6. 分割中的 Transformer

Transformer 以两种方式广泛应用于分割：基于 patch 的 Transformer （patch-based Transformer）和基于查询的 Transformer （query-based Transformer）。后者可以进一步分解为带有目标查询的 Transformer（Transformer with object query）和带有掩码嵌入的Transformer（Transformer with mask embedding）。

6.1 基于 patch 的 Transformer

为了扩展感受野，CNN 需要大量的解码器堆叠来将高级特征映射到原始空间分辨率。相比之下，依靠全局建模能力，基于 patch 的 Transformer 将输入图像视为 patch 序列，并将它们送到一个柱状 Transformer 编码器中。这种分辨率不变策略使 Transformer 能够仅包含一个相对简单的解码器，并为分割任务获得理想的性能。此外，一些工作（SETR、TransUNet、Segformer）尝试研究基于 patch 的 Transformer 与不同分割框架（Mask R-CNN、U-net）之间的最佳组合。

6.2 基于查询的 Transformer

查询（Query）是 Transformer 解码器输入和输出处的一个可学习的嵌入。与 patch 嵌入相比，查询嵌入可以更“公平”地整合每个 patch 的信息。有着集合预测损失的基于查询的 Transformer 能够删除其他手工制作的表示和后处理。最近，许多努力试图将这种表示推广到可以分为两类的分割任务。一类框架是由检测任务监督的目标查询所驱动。另一类的查询仅由分割任务监督，称为掩码嵌入。

用目标查询的 Transformer（Transformer with Object Queries）

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第15张图片

图9

基于目标查询的方法有三种训练方式：

基于 DETR 的预训练目标查询，一个带有查询的掩码头通过分割任务进一步细化（上图9（a）所示），如 Panoptic DETR。
代替多阶段训练过程，目标查询由一些端到端框架中的检测和分割任务同时建模（上图9（b）所示），如 Cell-DETR、VisTR。
用混合级联网络构建不同任务分支之间的差距，其中检测框的输出用作掩码头的输入（上图9（c）所示），如 QueryInst。

用掩码嵌入的 Transformer（Transformer with Mask Embeddings）

另一类的 Transformer 框架努力使用查询直接预测掩码，本文将这种基于学习掩码的查询称为掩码嵌入。与目标查询不同，掩码嵌入仅由分割任务监督。如上图 9（d）所示，两个不相交的查询集并行用于不同的任务，例如：ISTR 和 SOLQ。对于语义分割和无框框架，一些研究从基于查询的 Transformer 中删除对象查询，并直接通过掩码嵌入来预测掩码（上图 9（e）），如 Max-DeepLab、Segmenter 和 Maskformer（严格意义上说 Maskformer 结合了 box-free 和 box-based 方法，使用 box-based 来增强 box-free 的效果）。

6.3 讨论

作为一项基础但仍具有挑战性的任务，分割也从不断发展的视觉 Transformers 中受益。本文根据三种不同的分割子任务（语义分割、实例分割和全景分割）总结了这些 Transformer。

下表 4 侧重于语义分割任务的 ADE20K 验证集（170 个类别）。作者发现 Transformer 在有大量类而不是较小类的数据集上进行训练可以显示出巨大的性能改进。

下表 5 侧重于评估实例分割任务的 COCO test-dev 2017 数据集。显然，带有掩码嵌入的 Transformer 在分割和检测任务中都超越了以往流行的模型。这些方法显著提高了 box 的准确率，但对分割只有轻微的改进，从而导致和的性能存在巨大差距。基于级联框架，QueryInst 在 Transformer 模型中获得了 SOTA 性能。因此，Transformer 与混合任务级联结构的结合值得进一步研究。

下表 6 侧重于评估全景分割任务。Max-DeepLab 通常通过掩码预测的方式解决全景分割任务中的前景和背景，而 Maskformer 成功地将此方式用于语义分割并统一了语义和实例级分割任务。基于它们在全景分割领域的表现，可以得出结论：Transformer 可以将多个分割任务统一到一个具有掩码预测的无框框架中。

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第16张图片

表4. UperNet 和基于 Transformer 的模型在 ADE20K Val 中语义分割任务上的对比

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第17张图片

表5. Transformers 和有代表性的CNNs 在 COCO test-dev 中实例分割任务上的对比

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第18张图片

表6. 三种有代表性的 Transformers 在 COCO 全景 MiniVal 中全景分割任务上的对比

7. 讨论和总结

7.1 总结最近的改进

基于之前的比较和讨论，作者简要总结了三个基本任务（分类、检测和分割）的最新改进。

对于分类，深的层次的 Transformer 主干可有效降低计算复杂度并避免深层中的特征过度平滑。同时，早期的卷积足以捕获低级特征，可以显着增强鲁棒性并降低浅层的计算复杂度。 此外，卷积投影和局部注意机制都可以提高Transformer的局部性。前者也可能是一种替代位置编码的新方法。
对于检测，Transformer 颈部受益于编码器-解码器结构，其计算量少于仅编码器的 Transformer 检测器。因此，解码器是必要的，但由于其收敛速度慢，因此只需要很少的堆叠即可。此外，稀疏注意力有利于降低计算复杂度并加速 Transformer 的收敛，而空间先验有利于Transformer的性能，收敛速度稍快。
对于分割，编码器-解码器 Transformer 模型可以通过一系列可学习的掩码嵌入将三个分割子任务统一为掩码预测问题。这种无框的方法在多个基准测试中取得了最新的 SOTA （MaskFormer）。此外，基于框的 Transformer 的特定混合任务的级联模型被证实可以在实例分割任务中获得更高的性能。

7.2 视觉 Transformer 的讨论

尽管有大量的视觉 Transformer 模型和应用，但对视觉 Transformer 的“基本”理解仍然效率低下。因此，本文将重点关注一些关键问题，以帮助解决读者的困惑。

7.2.1 Transformer 如何弥合语言和视觉之间的鸿沟

Transformer 最初是为机器翻译任务而设计的。在语言模型中，以句子的每个词为基本单元，代表高层次、高维的语义信息。这些词可以嵌入到低维向量空间表示中，因此称为词嵌入。在视觉任务中，图像的每个像素都是低级、低维的语义信息，与嵌入特征不匹配。因此，迁移到视觉任务的关键是构建图像到矢量的转换并保持图像的特征。例如，ViT 通过强松弛条件将图像转换为具有多个低级信息的 patch 嵌入，而 Early Conv. 和 CoAtNet 利用卷积来提取高级信息并减少 patch 中的冗余特征。

7.2.2 Transformer、自注意力与 CNN 的关系

从卷积的角度来看，如上提到的 4.3 节，其归纳偏置主要表现为局部性、平移不变性、权重共享、稀疏连接。这种简单的卷积核可以有效地执行模板匹配，但由于其具有强烈的归纳偏差（因为很快就可以收敛学习好了），其上限低于 Transformer。

从自注意力机制的角度来看，如上提到的 4.2 和 4.4 节，当给定足够数量的头时，它理论上可以表达任何卷积层。这种全注意力操作可以交替地结合局部和全局级别的注意力，并根据特征的关系动态生成注意力权重。即便如此，它的实用性也较差，准确率低于 SOTA CNN，计算复杂度更高。

从 Transformer 的角度来看，Dong 等人证明当在没有短连接或 FFNs 的深层训练时，自注意力层会表现出对“令牌均匀性（token uniformity）”的强烈归纳偏见。得出的结论是，Transformer 由两个关键组件组成：一个 self-attention 层聚合了 token 的关系，一个 position-wise FFN 提取了输入的特征。尽管 Transformer 具有强大的全局建模能力，如 4.3 节和 7.2.1 节所述，卷积可以有效处理低级特征，增强 Transformer 的局部性，并通过填充附加位置特征。

7.2.3 不同视觉任务中的可学习到的嵌入

中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_第19张图片

图10 可学习的嵌入分类

Transformer 模型采用可学习的嵌入来执行不同的视觉任务。从监督任务的角度来看，这些嵌入可以分为类标记、目标查询和掩码嵌入。从结构上看，它们之间是有内在联系的。最近的 Transformer 方法主要采用两种不同的模式：仅编码器结构和编码器-解码器结构。每个结构由三个层次的嵌入组成，如上图 10 所示。从位置层次，学习嵌入在仅编码器的 Transformer 中的应用被分解为初始令牌（initial token）和后期令牌（later token），而学习的位置编码和学习的解码器输入嵌入被应用于编码器-解码器结构。从数量层面来看，仅编码器的设计会应用不同数量的令牌。例如，ViT 家族和 YOLOS 将不同的数字标记附加到初始层，而 CaiT 和 Segmenter 利用这些标记来表示最后几层的不同特征。在编码器 - 解码器结构中，解码器的学习位置编码（目标查询或掩码嵌入）在显式 [28]、[137] 或隐式 [69] 中附加到解码器的输入中。与常数输入不同，Deformable DETR 采用学习嵌入作为输入并加入到编码器的输出。

受多头注意力设计的启发，多初始的标记策略应该能进一步提高分类性能。然而，DeiT 表明这些额外的令牌会收敛到相同的结果，这对 ViT 没有好处。从另一个角度来看，YOLOS 提供了一种通过使用多个初始令牌来统一分类和检测的范式，但这种仅编码器的设计会导致计算复杂度过高。根据CaiT 的观察，后面的 class token 可以减少 Transformer 的一些 FLOPs 并略微提高性能（从79.9%到80.5%）。Segmenter 还展示了该策略在分割任务中的效率。

与带有仅编码器 Transformer 的多个后期令牌（later token）相比，编码器-解码器结构节省了更多的计算。它通过使用一小组目标查询（掩码嵌入）来标准化检测和分割领域中的 Transformer 方法。通过结合多个后期令牌和目标查询（掩码嵌入）的形式，像 Deformable DETR 这样的结构，它们对目标查询和可学习的解码器嵌入（相当于多个后期令牌）作为输入，可以将基于不同任务的可学习嵌入统一到 Transformer 编码器-解码器中。

7.3 未来的研究方向

Visual Transformer 方法取得了巨大的进步，并显示出在多个基准上接近或超过 SOTA CNN 方法的有希望的结果。然而，该技术太不成熟，无法颠覆卷积在 CV 领域的主导地位。基于 7.2 中的分析，作者指出了视觉 Transformer 的一些有前途的未来方向，以进一步进行整体串联。

1）集合预测：如上 7.2.3 节所述，由于损失函数的梯度相同，额外的类标记（token）将一致收敛。具有二分损失函数的集合预测策略已广泛应用于许多密集预测任务中的视觉 Transformer 里。如之前提到的，为分类任务考虑集合预测设计是很自然的，例如多类标记 Transformer 通过集合预测来预测混合 patch 图像，这类似于 LV-ViT 的数据增强策略。此外，在集合预测策略中的一对一标签分配导致早期过程中的训练不稳定，这可能会降低最终结果的准确性。使用其他标签分配和损失来改进集合预测可能有助于新的检测框架。

2）自监督学习：自监督 Transformer 预训练规范了NLP领域，并在各种应用中取得了巨大成功。作为 CV 中的自监督范式，卷积孪生网络采用对比学习来执行自监督预训练，这与 NLP 中的基于 mask 的自编码器不同。最近，一些研究尝试设计一种自监督的视觉 Transformer，以弥合视觉和语言之间预训练方法的差距。他们中的大多数继承了 NLP 中的掩码自编码器或 CV 中的对比学习方案。但是，没有像 NLP 中的 GPT-3 那样革命性的用于视觉 Transformer 的特定监督方法。如上 7.2.3 节所述，编码器-解码器结构可以通过学习的解码器嵌入和位置编码来统一视觉任务。用于自监督学习的编码器-解码器 Transformer 值得我们进一步研究。

7.4 总结

在 ViT 证明了其在 CV 任务中的有效性后，视觉 Transformer 受到了相当多的关注，并削弱了 CNN 的主导地位。在本文中，本文全面回顾了 100 多个 Transformer 模型，这些 Transformer 模型已先后应用于各种视觉任务中，包括分类、检测和分割。对于每个任务，提出了一种具体的分类法来组织最近开发的 Transformer 方法，并在各种流行的基准上对它们的性能进行了评估。通过对这些方法的综合分析和系统比较，本文总结了具有显著改进的方法，讨论了视觉 Transformer 的三个基本问题，并进一步提出了未来有希望的几个潜在研究方向。

-------------------

END

--------------------

我是王博Kings，985AI博士，华为云专家、CSDN博客专家（人工智能领域优质作者）。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容，欢迎一起交流学习、生活各方面的问题，一起加油进步！

我们微信交流群涵盖以下方向（但并不局限于以下内容）：人工智能，计算机视觉，自然语言处理，目标检测，语义分割，自动驾驶，GAN，强化学习，SLAM，人脸检测，最新算法，最新论文，OpenCV，TensorFlow，PyTorch，开源框架，学习方法...

这是我的私人微信，位置有限，一起进步！

王博的公众号，欢迎关注，干货多多

手推笔记：

增长见识：

其他学习笔记：

点分享

点收藏

点点赞

点在看

你可能感兴趣的:(大数据,编程语言,计算机视觉,机器学习,人工智能)

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
什么是ORM？它如何简化后端开发？破碎的天堂鸟学习教程数据库
什么是ORM？ORM（对象关系映射，Object-RelationalMapping）是一种编程技术，用于解决面向对象编程语言与关系型数据库之间的数据转换问题。其核心是将数据库中的表结构映射为程序中的类和对象，使开发者能够以操作对象的方式操作数据库，而非直接编写SQL语句。具体而言：映射机制：数据库表→编程语言中的类（如User类对应users表）表字段→类的属性（如username字段对应Use
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
2023高薪前端面试题（二、前端核心——Ajax）
原生AjaxAjax简介Ajax全程为AsynchronousJavaScript+XML，就是异步的JS和XML通过AJAX可以在浏览器中向服务器发送异步请求，最大的优势是：无刷新获取数据，实现局部刷新Ajax是一种用于创建快速动态网页的技术AJAX不是新的编程语言，而是一种将现有的标准组合在一起使用的新方式Ajax的应用场景页面上拉加载更多数据列表数据无刷新分页表单项离开焦点数据验证搜索框提示
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S