OpenMMLab

Vision Transformer 必读系列之图像分类综述(一)：概述

文 @ 000007

号外号外：awesome-vit 上新啦，欢迎大家 Star Star Star ~

https://github.com/open-mmlab/awesome-vitgithub.com/open-mmlab/awesome-vit

0 前言

随着 Vision Transformer 不断刷新各个领域的 SOTA，其优异的性能和广阔的发展前景使其得到了越来越多的关注。前段时间 OpenMMLab 也进行专项开发，对各个 repository 进行了一致性支持，具体可见：

OpenMMLab：做 Transformer, OpenMMLab 了解一下？96 赞同 · 1 评论文章正在上传…重新上传取消

鉴于大家对 Vision Transformer 如此关注，我们特推出了 Vision Transformer 必读系列文章，希望可以给大家带来一定的思考和启发。

按目前规划，该系列将覆盖图像分类、目标检测和语义分割三大方向，共计约5篇文章。后续还将对某篇或者某类主流算法结合 OpenMMLab 开源库的具体实现进行更加深入的解读，欢迎大家持续关注。

不仅如此，我们还特意新开了一个开源库，所有关于 Vision Transformer 相关的资料都会在这里持续更新，大家也可以在这里直接获取相关源文件。邀请大家共同来改进和维护，如果觉得 repository 对你有帮助，欢迎 Star ，感谢支持~

https://github.com/open-mmlab/awesome-vitgithub.com/open-mmlab/awesome-vit

本文是图像分类方向的开篇，将对 Transformer 和 Vision Transformer (ViT) 进行解读，同时还将对 ViT 后续发展进行系统性概述，方便大家把握方向，是本系列文章的重点内容(由于图像分类内容众多，本文仅仅是全局概述，不涉及思维导图中每篇论文，具体分析在系列二和系列三中描述)。

需要强调的是 MMClassification 框架中已经复现了 ViT 和 TnT 等视觉 Transformer 算法，并且也在不断地完善，有兴趣的朋友可以 Star，感谢支持~

https://github.com/open-mmlab/mmclassificationgithub.com/open-mmlab/mmclassification

ViT 进展汇总思维导图如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第1张图片

接下来就让我们进入正文吧~

1 Transformer 和 Vision Transformer 简要说明

Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出，从题目 Attention is All You Need 中可以看出主要是靠 Attention 注意力机制，其最大特点是抛弃了传统的 CNN 和 RNN，整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制，然后再分析模型结构。

Attention 注意力机制不是啥新鲜概念，视觉算法中早已广泛应用，典型的如 SENet。

Vision Transformer 必读系列之图像分类综述(一)：概述_第2张图片

利用 Squeeze-and-Excitation 模块计算注意力权重概率分布，然后作用于特征图上实现对每个通道重加权功能。
人生来就有 Attention 注意力机制，看任何画面，我们会自动聚焦到特定位置特定物体上。对于输入给网络的任何模态，不管是图像、文本、点云还是其他，我们都希望网络通过训练能够自动聚焦到有意义的位置，例如图像分类和检测任务，网络通过训练能够自动聚焦到待分类物体和待检测物体上。一个典型的 Transformer 结构如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第3张图片

上图来自 A Survey of Visual Transformers 文章。

通常来说，标准的 Transformer 包括 6 个编码器和 6 个解码器串行。

编码器内部接收源翻译输入序列，通过自注意力模块提取必备特征，通过前向网络对特征进行进一步抽象。
解码器端输入包括两个部分：一是目标翻译序列经过自注意力模块提取的特征，二是编码器提取的全局特征。这两个输入特征向量会进行交叉注意力计算，抽取有利于目标序列分类的特征，然后通过前向网络对特征进行进一步抽象。
堆叠多个编码器和解码器，下一个编解码器接收来自上一个编解码的输出，构成串行结构不断抽取，最后利用解码器输出进行分类即可。

图片分类中通常不需要解码器模块，所以我们只需要关注编码器部分，其中主要是位置编码模块 Positional Encoding、多头自注意力模块 Muti-Head Attention、前向网络模块 Feed Forward 以及必要的 Norm、Dropout 和残差模块。

位置编码模块 Positional Encoding 用于给输入的序列增加额外的位置信息。
多头自注意力模块 Muti-Head Attention 用于计算全局空间注意力。
前向网络模块 Feed Forward 用于对通道维度信息进行混合。
必要的 Norm、Dropout 和残差模块提供了更好的收敛速度和性能。

ViT 是第一次成功将 Transformer 引入到视觉领域的尝试，开辟了视觉 Transformer 先河。其结构图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第4张图片

其做法非常简单，简要概况为：

将图片分成无重叠的固定大小 Patch (例如 16x16)，然后将每个 Patch 拉成一维向量， n 个 Patch 相当于 NLP 中的输入序列长度(假设输入图片是 224x224，每个 patch 大小是 16x16，则 n 是 196)，而一维向量长度等价于词向量编码长度(假设图片通道是 3, 则每个序列的向量长度是 768)。
考虑到一维向量维度较大，需要将拉伸后的 Patch 序列经过线性投影 (nn.Linear) 压缩维度，同时也可以实现特征变换功能，这两个步骤可以称为图片 Token 化过程 (Patch Embedding)。
为了方便后续分类，作者还额外引入一个可学习的 Class Token，该 Token 插入到图片 token 化后所得序列的开始位置。
将上述序列加上可学习的位置编码输入到 N 个串行的 Transformer 编码器中进行全局注意力计算和特征提取，其中内部的多头自注意模块用于进行 Patch 间或者序列间特征提取，而后面的 Feed Forward(Linear+ GELU+Dropout+ Linear+ Dropout) 模块对每个 Patch 或者序列进行特征变换。
将最后一个 Transformer 编码器输出序列的第 0 位置( Class Token 位置对应输出)提取出来，后面接 MLP 分类后，然后正常分类即可。

ViT 证明纯 Transformer 也可以取得非常好的效果，相比 CNN 在数据量越大的情况下优势更加明显，但是 ViT 也存在如下问题：

不采用超大的 JFT-300M 数据集进行预训练，则效果无法和 CNN 媲美，原因应该是 Transformer 天然的全局注意力计算，没有 CNN 这种 Inductive Bias 能力，需要大数据才能发挥其最大潜力。
ViT 无法直接适用于不同尺寸图片输入，因为 Patch 大小是固定的，当图片大小改变时，序列长度就会改变，位置编码就无法直接适用了，ViT 解决办法是通过插值，这种做法一般会造成性能损失，需要通过 Finetune 模型来解决，有点麻烦。
因为其直筒输出结构，无法直接应用于下游密集任务。

上述仅仅是对 Transformer 和 ViT 进行简要分析，在下一篇文章中会进行更加细致的解释。

2 全局概述

简单来说，可以分成 3 大块以及 1 个额外部分，ViT 发展可以分成三个大方向：

Attention-based，这类算法是目前主流研究改进方向，包括了 Transformer 中最核心的自注意力模块。
MLP-based，这类算法不需要核心的自注意力模块，而是简单的通过 MLP 代替，也可以取得类似效果。
ConvMixer-based，这类算既不需要自注意力模块，也不是单纯依靠 MLP，而是内部混合了部分 Conv 算子来实现类似功能。

除了三个大方向，从其他视角出发，又包括一个额外的重要部分：General architecture analysis，在这三类算法基础上也有很多学者在探讨整个 Transformer 架构，其站在一个更高的维度分析问题，不局限于是否包括自注意力模块，属于整体性分析。

注意：本文为概述性总结，所以不会对思维导图中包括的每篇论文进行分析，其具体分析会在后续综述文章中详细说明。

2.1 Attention-based

Attention-based 是指改进论文中依然包括 Transformer 所提的 Attention 模块，可以认为 Attention 是核心。结构图如下所示：

从 ViT 出发，可以分成两个部分：

训练策略方面改进
模型方面改进

2.1.1 训练策略方面改进

如果说 ViT 开创了 Transformer 在视觉任务上面的先河，那么 DeiT 的出现则解决了 ViT 中最重要的问题：如果不采用超大的 JFT-300M 数据集进行预训练，则效果无法和 CNN 媲美。DeiT 核心是引入蒸馏手段加上更强的 Aug 和更优异的超参设置。其蒸馏的核心做法如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第6张图片

额外引入一个蒸馏 Token 用于蒸馏学习，通过大量实验，作者总结了如下结论：

蒸馏做法确实有效，且 Hard 蒸馏方式效果会更好，泛化性能也不错。
使用 RegNet 作为教师网络可以取得更好的性能表现，也就是说相比 Transformer，采用卷积类型的教师网络效果会更好。

除了上述蒸馏策略，还需要特别注意 DeiT 引入了非常多的 Aug 并且提供了一套更加优异的超参，这套参数也是后续大部分分类模型直接使用的训练参数，非常值得学习，如下图：

Vision Transformer 必读系列之图像分类综述(一)：概述_第7张图片

DeiT 不是唯一一个解决 ViT 需要大数据量问题的算法，典型的还有 Token Labeling，其在 ViT 的 Class Token 监督学习基础上，还对编码器输出的每个序列进行额外监督，相当于将图片分类任务转化为多个输出 Token 识别问题，并为每个输入 Patch 的预测 Token 分配由算法自动生成的基于特定位置的监督信号，简要图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第8张图片

从上图可以看出，相比 ViT 额外多了输出 Token 的监督过程，这些监督可以当做中间监督，监督信息是通过 EfficientNet 或者 NFNet ( F6 86.3% Top-1 accuracy) 这类高性能网络对训练图片提前生成的显著图，最终实验结果表明性能比 DeiT 更优异，而且由于这种密集监督任务，对于下游密集预测任务泛化性也更好。

2.1.2 模型方面改进

模型改进方面按照模块分成 6 个部分：

Token 模块，即如何将 Image 转 Token 以及 Token 如何传递给下一个模块
位置编码模块
注意力模块，这里一般都是自注意力模块
Fead Forward (FFN) 模块
Norm 模块位置
分类预测模块

2.1.2.1 Token 模块

Token 模块包括两个部分：

Image to Token 模块即如何将图片转化为 Token，一般来说分成有重叠和无重叠的 Patch Embedding 模块。
Token to Token 模块即如何在多个 Transformer 编码器间传递 Token，通常也可以分成固定窗口 Token 化过程和动态窗口 Token 化两个过程。

Vision Transformer 必读系列之图像分类综述(一)：概述_第9张图片

(1) Image to Token

ViT 和目前主流模型例如 PVT 和 Swin Transformer 等都是采用了非重叠 Patch Embedding，即将图片切分为不重叠的块，每个块单独进行 Embedding，最终输出 token 序列。

重叠 Patch Embedding 和非重叠 Patch Embedding 的主要差异在于窗口是否有重叠，直接将非重叠 Patch Embedding 通过修改 Unfold 或者 Conv 参数来实现重叠 Patch Embedding 功能的典型算法包括 T2T-ViT 和 PVTv2，这两个算法的出发点都是重叠 Patch Embedding 可以加强图片 Patch 之间的连续性，不至于出现信息断层，性能应该会比非重叠 Patch Embedding 高。

参考 ResNet 等网络的重叠渐进下采样策略，也有很多学者考虑引入 Conv Stem 结构来代替重叠 Patch Embedding，典型的如 Early Convolutions Help Transformers See Better 和 Token Learner 的作者，特别是 Early Convolutions Help Transformers See Better 的作者，他从优化稳定性角度入手，进行了深度分析，通过大量的实验验证了上述做法的有效性。作者指出 Patch Embedding 之所以不稳定，是因为该模块是用一个大型卷积核以及步长等于卷积核的卷积层来实现的，往往这个卷积核大小为 16*16，这样的卷积核参数量很大，而且随机性很高，从某种程度上造成了 Transformer 的不稳定，如果用多个小的卷积来代替则可以有效缓解。

Vision Transformer 必读系列之图像分类综述(一)：概述_第10张图片

(2) Token to Token

大部分模型的 Token to Token 方案和 Image to Token 做法相同，但是也有些算法进行了相应改造。经过整理，将其分成两种做法：

固定窗口 Token 化
动态窗口 Token 化

固定窗口是指 Token 化过程是固定或者预定义的规则，典型的重叠和非重叠 Patch Embedding 就是固定窗口，因为其窗口划分都是提前订好的规则，不会随着输入图片的不同而不同，而动态窗口是指窗口划分和输入图片语义相关，不同图片不一样，是一个动态过程，动态窗口 Token 化过程典型代表是 PS-ViT 和 TokenLearner。

PS-ViT 作者认为 ViT 采用固定窗口划分机制，然后对每个窗口进行 Token 化，这种做法首先不够灵活，而且因为图片本身就是密集像素，冗余度非常高，采用固定划分方法对于分类来说可能就某几个窗口内的 Token 实际上才是有意义的，假设物体居中，那么物体四周的 Token 可能是没有作用的，只会增加无效计算而已。基于此，作者设计了一个自适应采样的 Token 机制，不再是固定的窗口采样，而是先初始化固定采样点，如下图红色点所示，然后通过 refine 机制不断调整这些采样点位置，最终得到的采样点所对应的 Token 就是最有代表力的。其完整分类网络结构图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第11张图片

基于类似出发点，TokenLearner 提出可以基于空间注意力自适应地学习出更具有代表性的 token，从而可以将 ViT 的 1024 个 token 缩减到 8-16 个 token，计算量减少了一倍，性能依然可以保持一致。

Vision Transformer 必读系列之图像分类综述(一)：概述_第12张图片

2.1.2.2 位置编码模块

Vision Transformer 必读系列之图像分类综述(一)：概述_第13张图片

位置编码模块是为 Transformer 模块提供 Patch 和 Patch 之间的相对关系，非常关键。按照是否显式的设置位置编码向量，可以分成：

显式位置编码，其中可以分成绝对位置编码和相对位置编码。
隐式位置编码，即不再直接设置绝对和相对位置编码，而是基于图片语义利用模型自动生成能够区分位置信息的编码向量。

其中显式位置编码，可以分成绝对位置编码和相对位置编码，并且每一种位置编码原则上都可以分成固定编码和可学习位置编码两种，而隐式位置编码是基于图片语义利用模型自动生成能够区分位置信息的编码向量，一般来说隐式位置编码对于图片长度改变场景更加有效，因为其是自适应图片语义而生成。

在论文 How much position information do convolutional neural networks encode? 中已经证明 CNN 不仅可以编码位置信息，而且越深的层所包含的位置信息越多，而位置信息是通过 zero-padding 透露的。既然 Conv 自带位置信息，那么可以利用这个特性来隐式的编码位置向量。大部分算法都直接借鉴了这一结论来增强位置编码，典型代表有 CPVT、PVTv2 和 CSWin Transformer 等。

基于此，CPVT 作者认为在视觉任务中一个好的位置编码应满足如下条件：

模型应该具有 permutation-variant 和 translation-equivariance 特性，即对位置敏感但同时具有平移不变性
能够自然地处理变长的图片序列
能够一定程度上编码绝对位置信息

基于这三个原则，CPVT 引入了一个带有 zero-padding 的卷积 ( kernel size k ≥ 3) 来隐式地编码位置信息，并提出了 Positional Encoding Generator (PEG) 模块，如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第14张图片

算法的整体结构图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第15张图片

除了上述分析的加法隐式位置编码改进， ResT 提出了另一个非常相似的，但是是乘法的改进策略，结构图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第16张图片

对 Patch Embedding 后的序列应用先恢复空间结构，然后应用一个 3×3 depth-wise padding 1的卷积来提供位置注意力信息，然后通过 sigmoid 操作变成注意力权重和原始输入相乘。

2.1.2.3 自注意力模块

Transformer 的最核心模块是自注意力模块，也就是我们常说的多头注意力模块，如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第17张图片

注意力机制的最大优势是没有任何先验偏置，只要输入足够的数据就可以利用全局注意力学到泛化性能不错的特征。当数据量足够大的时候，注意力机制是 Transformer 模型的最大优势，但是一旦数据量不够就会变成逆势，后续很多算法改进方向都是希望能够引入部分先验偏置辅助模块，在减少对数据量依赖的情况下加快收敛，并进一步提升性能。同时注意力机制还有一个比较大的缺点：因为其全局注意力计算，当输入高分辨率图时候计算量非常巨大，这也是目前一大改进方向。

简单总结，可以将目前自注意力模块分成 2 个大方向：

仅仅包括全局注意力，例如 ViT、PVT 等
引入额外的局部注意力，例如 Swin Transformer

Vision Transformer 必读系列之图像分类综述(一)：概述_第18张图片

(1) 仅仅包括全局注意力

标准的多头注意力就是典型的空间全局注意力模块，当输入图片比较大的时候，会导致序列个数非常多，此时注意力计算就会消耗大量计算量和显存。以常规的 COCO 目标检测下游任务为例，输入图片大小一般是 800x1333，此时 Transformer 中的自注意力模块计算量和内存占用会难以承受。其改进方向可以归纳为两类：减少全局注意力计算量以及采用广义线性注意力计算方式。

全局注意力计算量主要体现在 QK 矩阵相似性计算和输出经过 Softmax 后和 V 相乘部分，想减少这部分计算量，那自然可以采用如下策略：

降低 KV 维度，QK 计算量和 Softmax 后和 V 相乘部分计算量自然会减少，典型的如 PVT 。
减低 QKV 维度，主要如果 Q 长度下降了，那么代表序列输出长度改变了，在减少计算量的同时也实现了下采样功能，典型的如 MViT 。

PVT 核心是通过 Spatial Reduction 模块缩减 KV 的输入序列长度，KV 是空间图片转化为 Token 后的序列，可以考虑先还原出空间结构，然后通过卷积缩减维度，再次转化为序列结构，最后再算注意力，如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第19张图片

MViT 是为视频任务所设计，其核心思想和 PVT 类似。

Vision Transformer 必读系列之图像分类综述(一)：概述_第20张图片

其在缩减 KV 空间尺寸的同时，也缩减了 Q 的尺寸，这意味着同时进行了输出下采样功能，而且后续提出的 Imporved MViT 在不同的下游任务提升也显著。

(2) 引入额外的局部注意力

局部注意力是指仅仅计算局部窗口的注意力，而并非全局，可以有效地减少计算量。需要特别注意的是：

引入局部窗口注意力后依然要提供跨窗口信息交互模块，不可能只存在局部注意力模块，因为这样就没有局部窗口间的信息交互，性能会出现不同程度的下降，也不符合 Transformer 设计思想( Patch 内和 Patch 间信息交互)，这个跨窗口信息模块可以是全局注意力模块，也可以是任何可以实现这个功能的模块。
局部窗口计算模式和引入卷积局部归纳偏置增强的划分依据是其核心出发点和作用，而不是从是否包括 Conv 模块来区分。

引入额外局部注意力的典型代表是 Swin Transformer。其将自注意力计算过程限制在每个提前划分的窗口内部，称为窗口注意力 Window based Self-Attention (W-MSA)，相比全局计算自注意力，明显可以减少计算量，但是这种做法没法让不同窗口进行交互，此时就退化成了 CNN，所以作者又提出移位窗口注意力模块 Shifted window based Self-Attention (SW-MSA)，示意图如下所示，具体是将窗口进行右下移位，此时窗口数和窗口的空间切分方式就不一样了，然后将 W-MSA 和 SW-MSA 在不同 stage 之间交替使用，即可实现窗口内局部注意力计算和跨窗口的局部注意力计算，同时其要求 stage 个数必须是偶数。

Vision Transformer 必读系列之图像分类综述(一)：概述_第21张图片

Swin Transformer 算法在解决图片尺度增加带来的巨大计算量问题上有不错的解决方案，但是 SW-MSA 这个结构被后续诸多文章吐槽，主要包括：

为了能够高效计算，SW-MSA 实现过于复杂
SW-MSA 对 CPU 设备不友好，难以部署
或许有更简单更优雅的跨窗口交互机制

基于这三个问题，后续学者提出了大量的针对性改进，可以归纳为：

抛弃 SW-MSA，依然需要全局注意力计算模块，意思是不再需要 SW-MSA，跨窗口交互功能由全局注意力计算模块代替，当然这个全局注意力模块是带有减少计算量功能的，典型的如 Twin 和 Imporved MViT。
抛弃 SW-MSA，跨窗口信息交互由特定模块提供，这个特定模块就是改进论文所提出的模块，典型的如 Shuffle Transformer 和 MSG-Transformer 等。
CSWin Transformer 提出一种新的十字形局部窗口划分方式，具备跨窗口局部注意力计算能力，而不再需要分成 W-MSA 和 SW-MSA 两个模块，性能优于 Swin Transformer。

从引入 Conv 归纳偏置角度，也有不少高效的改进，典型的例如 ViTAE 和 ELSA: Enhanced Local Self-Attention for Vision Transformer 。

ViTAE 包括两个核心模块：Reduction Cell (RC) 和 Normal Cell (NC)。RC 用于对输入图像进行下采样并将其嵌入到具有丰富多尺度上下文的 token 中，而 NC 旨在对 token 序列中的局部性和全局依赖性进行联合建模，可以看到这两种类型的结构共享一个简单的基本结构。

对于 RC 模块，分成两个分支，第一条分支首先将特征图输入到不同空洞率并行的卷积中，提取多尺度特征的同时也减少分辨率，输出特征图拼接+ GeLU 激活，然后输入到注意力模块中，第二条分支是纯粹的 Conv 局部特征提取，用于加强局部归纳偏置，两个分支内容相加，然后输入到 FFN 模块中。
对于 NC 模块，类似分成两个分支，第一条是注意力分支，第二条是 Conv 局部特征提取，用于加强局部归纳偏置，两个分支内容相加，然后输入到 FFN 模块中。

Vision Transformer 必读系列之图像分类综述(一)：概述_第22张图片

而 ELSA 基于一个现状：Swin Transformer 种所提的局部自注意力（LSA）的性能与卷积不相上下，甚至不如动态过滤器。如果是这样，那么 LSA 的重要性就值得怀疑了。

作者以 Swin Tiny 版本为例，将其中的局部窗口注意力模块 LSA 替换为 DW Conv、decoupled dynamic filter (DDF)，从上图可以看出 DWConv 和 DDF 性能都比 LSA 强的，特别是 DW Conv，在参数量和 FLOPs 更小的情况下性能会比 Swin Transformer 高。
作者试图从两个角度来统一分析 LSA、DWConv 和 DDF，分别是通道数设置和空间处理方式 spatial processing，并进行了详细的对比分析，基于最终发现提出了改进的增强型 LSA 模块。

2.1.2.4 FFN 模块

FFN 模块比较简单，主要是进行通道维度的特征变换，主要改进是在引入 Conv 增强局部信息特征信息提取方面。

如下 (b) 和 (c) 所示，引入 1x1 卷积和带 padding 的 3x3 DW 卷积来增强局部特征提取能力，实验结果能够带来不少的性能提升。

Vision Transformer 必读系列之图像分类综述(一)：概述_第24张图片

2.1.2.5 Norm 位置改动

Norm 通常是 Layer Norm，按照该模型放在自注意力和 FFN 模块的前面还是后面，可以分成 pre norm 和 post norm 方式，至于应该选择 pre norm 还是 post norm，可能需要根据实验来选择。

2.1.2.6 分类预测模块

在 ViT 中通过追加额外一个 Class Token，将该 Token 对应的编码器输出输入到 MLP 分类头(实际上是一个线性投影层)进行分类。为何不能和我们常规的图像分类一样，直接聚合所有特征，而需要单独引入一个 Class Token ？这个问题自然有人进一步探索，经过简单总结，可以归纳为如下结构图：

Vision Transformer 必读系列之图像分类综述(一)：概述_第25张图片

2.1.2.7 其他

目前，其他包括两个内容部分，如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第26张图片

主要探讨如何输出多尺度特征图以及如何训练更深的 Transformer。

(1) 如何输出多尺度特征图

在 CNN 时代的各种下游任务例如目标检测、语义分割中已经被广泛证明多分辨率多尺度特征非常重要，不同尺度特征可以提供不同的感受野，适合提取不同物体尺度的特征，然而 ViT 仅仅是为图像分类而设计，无法很好地应用于下游任务，这严重制约了视觉 Transformer 的广泛应用，故迫切需要一种能够类似 ResNet 在不同 stage 输出不同尺度的金字塔特征做法。

ViT 要输出多尺度特征图，最常见做法是 Patch Merging，其含义是对不同窗口的 Patch 进行合并，在目前主流的 PVT、Twins、Swin Transformer 和 ResT 中都有广泛的应用，以 PVT 为例详细说明，结构图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第27张图片

假设图片大小是 (H, W, 3)，暂时不考虑 batch 。

考虑将图片切割为 HW/(4X4) 个块，每个块像素大小是 4x4x3, 此处 stride=4。
将每个 4x4x3 像素块展开，变成一维向量，然后经过线性投影层，输出维度变成 C1，此时特征图 shape 是 (HW/(4X4), C1) 即每个像素块现在变成了长度为 C1 的向量，这两个步骤合并称为 Patch Embedding。
将上一步输出序列和位置编码相加，输入到编码器中，输出序列长度不变。
将这个输出序列恢复成空间结构，其 shape 是 (H/4, W/4, C1)，此时特征图相比原始图片就下采样了 4x4 倍。
在下一个 stage 中改变 stride 数目，然后重复 1-4 步骤就又可以缩减对应 sxs 倍，假设设置 4 个 stage 的 stride 为 [4, 2, 2, 2]，那么 4 个 stage 输出的 stride 就是 [4, 8, 16, 32]，这个就和 ResNet 输出 stride 完全对齐。

除了上述这种相对朴素的做法，还有一些其他做法。例如 MViT ，其不存在专门的 Patch Merging 模块，而是在注意力模块中同时嵌入下采样功能，如下图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第28张图片

只要在每个 stage 中改进 Pool 模块的 stride 就可以控制实现 ResNet 一样的多尺度输出，从而实现多分辨率金字塔特征输出。

(2) 如何训练更深的 Transformer

前述诸多论文都是在 6 层编码器的 Transformer 中进行改进，不过也有学者探讨如何训练更深的 Transformer，典型算法是 CaiT 和 DeepViT。

在 CaiT 算法中，作者从 Transformer 架构和优化关系会相互影响相互作用的角度出发进行探讨，而 DeepViT 不一样，他通过分析得出深层 Transformer 性能饱和的原因是：注意力崩塌，即深层的Transformer 学到的 attention 非常相似，这意味着随着 ViT 的层次加深，self-attention 模块在生成不同注意力以捕获多样性特征方面变得低效。

CaiT 主要从架构细节着手：

提出 LayerScale，更合理的 Norm 策略使深层 Transformer 易于收敛，并提高精度。
提出 class-attention layers，class token 和 patch embedding 在最后融合，并且通过 CA 模块来更加高效地将patch embedding 信息融合到 class embedding 中，从而提升性能。

Vision Transformer 必读系列之图像分类综述(一)：概述_第29张图片

DeepViT 从注意力崩塌方面着手，提出了 Re-Attention 层来增加注意力层的多样性。

Vision Transformer 必读系列之图像分类综述(一)：概述_第30张图片

其结构图如下右图所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第31张图片

CaiT 和 DeepViT 都是关注深层 Transformer 出现的过早饱和问题，不过关注的地方不一样，解决办法也完全不同，但是效果类似，这或许说明还有很大的改进空间。

2.2 MLP-based

Vision Transformer 必读系列之图像分类综述(一)：概述_第32张图片

在视觉 Transformer 大行其道碾压万物的同时，也有人在尝试非注意力的 Transformer 架构(如果没有注意力模块，那还能称为 Transformer 吗)。相比 Attention-based 结构，MLP-based 顾名思义就是不需要注意力了，将 Transformer 内部的注意力计算模块简单替换为 MLP 全连接结构，也可以达到同样性能。典型代表是 MLP-Mixer 和后续的 ResMLP。

Vision Transformer 必读系列之图像分类综述(一)：概述_第33张图片

Mixer Layer 中整体结构和 Transformer 编码器类似，只不过内部不存在自注意力模块，而是使用两个不同类型的 MLP 代替，其分别是 channel-mixing MLPs 和 token-mixing MLPs，channel-mixing MLPs 用于在通道 C 方向特征混合，从上图中的 Channels （每个通道颜色一样）变成了 Patches （每个通道颜色不一样）可以明显看出其做法，而 token-mixing MLPs 用于在不同 patch 块间进行特征混合，其作用于 patch 方向。

2.3 ConvMixer-based

ConvMixer 的含义是：

不包括自注意力层
不包括 Spatial Mixer MLP 层
包括 Channel Mixer 层，这个层可以是 1x1 的点卷积，或者 MLP 层

因为 Channel Mixer MLP 层和 1x1 卷积完全等价，所以这里所说的 ConvMixer-based 是强调 Spatial Mixer 层模块可以替换为 DW 卷积。
ConvMixer-based 的典型代表是 ConvMixer，其结构图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第34张图片

从 MLP-based 和 ConvMixer-based 中可以看出： ViT 这种架构的成功不在于是使用了自注意力模块还是 Spatial Mixer MLP，只要有相应的代替结构性能其实都差不多，我们可能要关注整个 Transformer 架构而不仅仅是注意力等模块，后续很多论文也慢慢发现了这点。

2.4 通用架构分析

前面所提出的 MLP-Mixer 和 ResMLP 已经证明了 ViT 成功的关键可能并不是注意力机制，而是来自其他地方或者说整体架构。基于这个出发点，有大量学者对整个架构进行深入研究，试图从更高维度的角度来理解 Transformer，如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第35张图片

以 MetaFormer 为例，结构图如下所示：

Vision Transformer 必读系列之图像分类综述(一)：概述_第36张图片

其核心观点和 ResMLP 一致，即 Transformer 模型中自注意力模块不是最核心的(并不是说可以直接去掉)，Transformer 的成功来源其整体架构，同时可以将 Transformer 的 Attention 模块和 ResMLP 的 Spatial MLP 层统称为 Token Mixer，进而提出了 MetaFormer 通用结构，Meta 的含义代表 Token Mixer 是一种统称，只要能够实现 Token Mixer 功能的模型都属于 MetaFormer 范畴，例如你也可以将 Token Mixer 换成 3x3 DW 卷积。为了验证这个架构的可行性，作者将 Token Mixer 替换为最简单的无参数的 Pooling 算子，发现效果也是类似的。

如果说 MetaFormer 还有 Transformer 的影子，那么 ConvNeXt 就是一个更彻底的去 Transformer 的例子了。其核心出发点是纯粹的 Conv 堆叠性能能不能超过 Transformer？ ConvNeXt 对 Swin Transformer 进行了逐模块分解，并且将其应用于 ResNet 上，通过不断对比两者差异，作者将 ResNet 改造为 ConvNeXt，性能最终超越 Swin Transformer，证明了纯粹的 Conv 堆叠性能能够超过 Transformer，这也间接说明 Transformer 架构和优化策略的优异性，而不是所谓的 Attention。

Vision Transformer 必读系列之图像分类综述(一)：概述_第37张图片

3 总结

ViT 的核心在于 Attention，但是整个架构也包括多个组件，每个组件都比较关键，有诸多学者对多个组件进行了改进。我们可以简单将 ViT 结构分成 6 个部分：

Token 模块，其中可以分成 Image to Token 模块和 Token to Token 模块, Image to Token 将图片转化为 Token，通常可以分成非重叠 Patch Embedding 和重叠 Patch Embedding，而 Token to Token 用于各个 Transformer 模块间传递 Token，大部分方案都和 Image to Token 做法一样即 Patch Embedding，后续也有论文提出动态窗口划分方式，本质上是利用了图片级别的语义自动生成最有代表性的采样窗口。
位置编码模块，其中可以分成显式位置编码和隐式位置编码，显式位置编码表示需要手动设置位置编码，包括绝对位置编码和相对位置编码，而隐式位置编码一般是指的利用网络生成自适应内容的位置编码向量，其提出的主要目的是为了解决显式位置编码中所遇到的当图片尺寸变化时候位置编码插值带来的性能下降的问题。
注意力模块，早期的自注意力模块都是全局注意力，计算量巨大，因此在图片领域会针对性设计减少全局注意力，典型做法是降低 KV 空间维度，但是这种做法没有解决根本问题，因此 Swin Transformer 中提出了局部窗口自注意力层，自注意力计算仅仅在每个窗口内单独计算，不再存在上述问题。
FFN 模块，其改进方向大部分是引入 DW 卷积增强局部特征提取能力，实验也证明了其高效性。
Normalization 模块位置，一般是 pre norm。
分类预测模块，通常有两种做法，额外引入 Class Token 和采用常规分类做法引入全局池化模块进行信息聚合。

随着研究的不断深入，大家发现 Attention 可能不是最重要的，进而提出了 MLP-based 和 ConvMixer-based 类算法，这些算法都是为了说明自注意力模块可以采用 MLP 或者 Conv 层代替，这说明 Transformer 的成功可能来自整个架构设计。

MetaFormer、An Empirical Study of CNN, Transformer, and MLP 和 Demystifying Local Vision Transformer 等论文都进一步详细说明和验证了上面的说法，并都提出了自己各自的看法。
从视觉 Transformer 进展来看，目前 CNN 和 Transformer 的边界已经越来越模糊了，相互可以等价替换，也可以相互增强，特别是 ConvNeXt 的提出更是验证了这一点。

下一篇文章会对 Attention-based 进行更加全面深入的总结，敬请期待！

对 Vision Transformer 系列内容感兴趣的朋友，不要忘记 star 啦~

https://github.com/open-mmlab/awesome-vitgithub.com/open-mmlab/awesome-vit

你可能感兴趣的:(技术干货,transformer,深度学习,人工智能)

结构性变革与新兴机遇倒霉男孩经济学
近年来，全球就业市场正经历深刻的结构性变革。受技术进步、产业升级、人口结构变化及全球经济格局调整的影响，传统就业模式被重塑，新的职业机会不断涌现。本文将分析当前就业市场的主要趋势，并探讨其对劳动者、企业和政策制定者的启示。###**一、技术驱动下的就业结构变化**1.**人工智能与自动化替代部分传统岗位**-麦肯锡全球研究院预测，到2030年，全球约14%的劳动者（3.75亿人）可能因自动化技术而
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
未来运维，绝绝AI 必备 AI_运维_攻城狮 ai 运维人工智能
在当今数字化时代，运维工作对于企业的稳定运行至关重要。随着科技的不断进步，人工智能（AI）和自动化技术正逐渐改变着运维行业的面貌。本文将分析运维行业的未来发展方向，探讨人工智能在运维中的应用前景、自动化运维的发展趋势，并对未来的运维工作模式和技能需求进行预测和分析，以帮助读者更好地规划自己的职业发展。一、运维行业现状目前，运维工作主要包括服务器管理、网络管理、数据库管理、应用程序监控等方面。运维工
AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN wq舞s 人工智能 python 深度学习 deep learning ai 科技 pytorch
研究者与发布者为:CSDNwq舞s，知乎wqwsgithubwqws突破性进展！新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。然而，它们在长序列任务中始终存在信息遗忘和梯度消失等问题。今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
Orangepi Zero2 全志H616开发学习会学嵌入式 ARM Linux全志平台开发学习 linux 开发语言服务器
一.简介1.1为什么学学习目标依然是Linux系统，平台是ARM架构·蜂巢快递柜，配送机器人，这些应用场景用C51,STM32单片机无法实现·第三方介入库的局限性，比如刷脸支付和公交车收费设备需要集成支付宝SDK，提供的libalipay.so是Linux的库，设备必须跑Linux系统·图像识别，音频，视频等领域的技术支撑也无法脱离Linux系统·人工智能型设备通常需要更好的系统和更高的算力，所以
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
2025年AI十大趋势：从多模态大模型到自主智能体 zhuzhi 人工智能大数据
2025年AI十大趋势：从多模态大模型到自主智能体人工智能技术正以前所未有的速度重塑着我们的世界。2025年，AI领域将迎来一系列突破性进展，从多模态大模型的全面进化到自主智能体的广泛应用，这些技术变革正在重新定义人机交互的边界。本文将系统梳理2025年AI发展的十大核心趋势，为读者揭示人工智能技术的最新发展方向及其对社会各领域的深远影响。趋势一：多模态大模型成为基础设施2025年，多模态大模型已
贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
对话式AI助手的巅峰对决：ChatGPT与文心一言的实用价值探讨酷钉 chatgpt 人工智能
随着人工智能技术的发展，对话式AI助手逐渐成为了人们生活中的一部分。其中，ChatGPT和文心一言更是备受关注的两款对话式AI助手。本文将探讨这两款AI助手的实用价值，并通过案例和数据的方式进行分析。一、ChatGPT的实用价值跨语言交流ChatGPT是一款能够进行跨语言交流的对话式AI助手。据统计，ChatGPT支持的语言数量超过100种，用户可以通过它轻松地与不同国家和地区的人进行交流。例如，
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
Dimba: Transformer-Mamba Diffusion Models————3 Methodology
图解图片中的每个模块详解1.文本输入(Text)描述：输入的文本描述了一个具有具体特征的场景。功能：提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述：使用T5模型将文本转换为特征向量。功能：提取文本中的语义信息，为后续的图像生成提供条件。3.图像输入(Image)描述：输入图像通过变分自编码器(VAE)编码器处理。功能：将图像转换为潜在表示，用于添加噪声并进行扩散过程。
【Python】Hydra 用法详解行码棋 #Python python 开发语言
Hydra官方文档Hydra（Python配置管理工具）1.引言在机器学习、深度学习和软件开发中，管理复杂的配置是一个常见的挑战。Hydra是一个强大的Python库，允许开发者轻松地管理和组织配置文件，支持动态参数覆盖、多层次配置和可组合配置等特性。2.安装HydraHydra可以通过pip直接安装：pipinstallhydra-core安装完成后，你可以使用hydra进行配置管理。3.基础用
onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析) weixin_39759270 onnx模型部署 python
背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事
如何禁止GPTBot等爬虫爬取网站内容：保护数据安全的实用指南淮橘√ 人工智能
引言随着人工智能技术的快速发展，网络爬虫（如OpenAI的GPTBot、GoogleBot、Anthropic的ClaudeBot等）被广泛用于抓取网站数据以训练AI模型或索引内容。然而，部分网站管理员可能不希望自己的内容被爬虫抓取，原因包括保护原创内容、降低服务器负载或防止数据被滥用。一、为什么需要禁止爬虫？网络爬虫可能带来以下问题：内容盗用风险：原创内容可能被AI模型或其他服务未经授权使用。服
Java 与 AI 携手，掀起多领域智能变革浪潮 WangRK_ 人工智能 java 开发语言
在数字化转型的时代浪潮下，技术更新迭代速度超乎想象。当Java这门历经二十余年沉淀的编程语言，遇上风头正劲的人工智能（AI），一场席卷多领域的智能变革正悄然发生。尤其是在金融与零售两大行业，这场技术融合带来的改变，正重塑着整个行业的生态。一、Java在金融与零售行业的“前世今生”（一）曾经的行业基石在金融领域，Java堪称“代码钢铁侠”，是金融基础设施的坚实支柱。全球顶级交易所依靠Java强大的性
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
筑牢医疗AI安全防线：四重防护体系全解析 Allen_Lyb 数智化教程（第二期）人工智能安全
一、引言：医疗AI发展中的安全困境在数字化浪潮席卷下，医疗领域正经历着一场由人工智能（AI）驱动的深刻变革。医疗AI凭借其强大的数据分析与处理能力，在疾病诊断、药物研发、健康管理等诸多环节展现出巨大潜力，成为推动医疗行业进步的关键力量。而这一切的背后，医疗数据作为AI发展的“燃料”，以及AI算力作为运行的“引擎”，起着不可或缺的核心作用。医疗数据涵盖了患者从基本信息、病史、症状描述到各种检查检验报
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》