xiaoweiyuya

论文阅读|LVT

Lite Vision Transformer with Enhanced Self-Attention

全新轻量级ViT！LVT：具有增强自注意力的Lite视觉Transformer_Amusi（CVer）的博客-CSDN博客

Abstract

Introduction

Vision Transformer

CNN+Transformer

Recursive Convolutional Neural Networks 递归卷积神经网络

Lite Vision Transformer

Convolutional Self-Attention (CSA)

Analyzing Convolution

Analyzing Self-Attention

Convolutional Self-Attention (CSA)

Recursive Atrous Self-Attention (RASA)

Atrous Self-Attention (ASA)

Resursive Atrous Self-Attention (RASA)

Model Architecture

Experiments

ImageNet Classification

Mobile ADE20K Semantic Segmentation

Mobile COCO Panoptic Segmentation

Ablation Studies

RASA递归次数

Contributions of CSA and RASA

Conclusion

Abstract

尽管视觉transformer模型具有令人印象深刻的表示能力，但当前的轻量级视觉transformer模型仍然存在局部区域的不一致和不正确的密集预测。我们怀疑他们的自我注意机制的力量在更浅和更薄的网络中是有限的。我们提出了 Lite Vision Transformer（LVT），一种新颖的轻量级变压器网络，具有两种增强的自注意机制，以提高移动部署的模型性能。对于低级特征，我们引入了卷积自注意力（CSA）。与之前合并卷积和自注意力的方法不同，CSA 将局部自注意力引入到大小为 3×3 的内核内的卷积中，以丰富 LVT 第一阶段的低级特征。对于高级特征，我们提出递归 Atrous Self-Attention (RASA)，利用多尺度上下文计算相似性映射，并采用递归机制以增加额外的边际参数代价的表示能力。 LVT在ImageNet识别、ADE20K语义分割、COCO全景分割上的优越性得到验证。

Introduction

基于 Transformer 的架构取得了显著的成功，它们在各种视觉任务中表现出了卓越的性能。Dosovitskiy 受到自然语言处理 (NLP) 中自注意力模块成功的启发，首次提出了一种基于 Transformer 的计算机视觉网络，其关键思想是将图像分割成小块，从而通过位置嵌入实现线性嵌入。为了降低引入的计算复杂度，Swin-Transformer 通过使用局部非重叠窗口限制自注意的计算代价来升级体系结构。此外，引入分层特征表示来利用来自不同尺度的特征以获得更好的表示能力。另一方面，PVT 提出了spatial-reduction attention (SRA) 来降低计算成本。它还通过在基本Transformer Block的自注意力层之后的前馈网络(FFN)中插入深度卷积来消除位置嵌入。Swin-Transformer 和 PVT 都证明了它们对于下游视觉任务的有效性。然而，当将模型缩小到移动友好的大小时，也会出现显著的性能下降。

本工作专注于设计一个轻量而有效的 Vision Transformer 能够在移动端应用。更具体地说，本文引入了一个 Lite Vision Transformer (LVT) backbone，它具有两个新颖的自注意力层，以追求性能和紧凑性。LVT 遵循标准的四阶段结构，但具有与现有移动网络类似的参数大小，如MobileNetV2 和 PVTv2-B0。

本文对自注意力的第一个改进是卷积自注意力 (Convolutional self-attention, CSA)。自注意力层是 vision transformer 的基本组件，因为自注意力捕获了短距离和长距离的视觉依赖。然而，识别局部性是视觉任务成功的另一个重要关键。例如，卷积层是处理底层特征的较好层。已有技术提出将卷积和自注意力与全局感受野结合起来。相反，本文将局部自注意力引入到大小为 3x3 的核内的卷积中。CSA 应用于 LVT 的第一阶段。由于 CSA 的存在，LVT 比现有的 transformer 模型更丰富了底层特征，具有更好的泛化能力。如图 1 所示，与 PVTv2-B0 相比，LVT 能够在局部区域生成更多的连贯的标签。

另一方面，lite模型的性能仍然受到参数数量和模型深度的限制。本文进一步提出通过递归Atrous自注意力(RASA)层来提高lite Transformer的表示能力。如图1所示，LVT结果的语义正确性较好，这是因为这种有效的表示方式。具体来说，RASA包含了两个具有权重共享机制的组件。第一个是Atrous自注意力(ASA)。在计算query和key之间的相似度时，它利用了具有单个卷积核的多尺度上下文。第二个是递归管道。按照标准的递归网络，将RASA形式化为一个递归模块，其中ASA作为激活函数。它在不引入额外参数的情况下增加了网络深度。

在ImageNet分类、ADE20K语义分割和COCO全景分割上进行实验，以评估LVT作为广义视觉模型Backbone的性能，主要工作总结如下：

我们提出卷积自我注意(CSA)。与以往将全局自我注意与卷积相结合的方法不同，CSA将局部自我注意集成到大小为3×3的卷积核中。该算法通过包含动态核和可学习滤波器来处理底层特征。
提出递归 Atrous 自注意力 (RASA)。它由两部分组成。第一部分是 Atrous自注意力 (ASA)，它捕捉了自注意力相似性映射计算中的多尺度语境。另一部分是用 ASA 作为激活函数的递归公式。提出了 RASA 算法，在增加微乎其微额外参数的前提下提高算法的表示能力。
提出 Lite Vision Transformer (LVT) 作为视觉模型的轻量级 Transformer backbone。LVT 包含四个阶段，前三个阶段分别采用 CSA 和 RASA。LVT 在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割等方面的性能都得到了验证

Vision Transformer

ViT是第一个证明了Transformer结构可以以优异的性能转移到图像识别任务中的Vision Transformer。图像被分割成一系列的patches，这些patches被线性嵌入为ViT的token输入。

在ViT之后，提出了一系列的改进方法。在训练方面，DeiT介绍了Transformer知识蒸馏策略。

对于Tokenization，T2T-ViT提出了T2T模块，递归地将相邻token聚合成一个token，以丰富局部结构建模。

TNT进一步将token分解成更小的token，从它们中提取特征，以便与普通token特征集成。对于位置嵌入，CVPT提出了可推广到任意分辨率图像的动态位置编码。

在多尺度加工方面，Twins研究了局部自注意力和全局自注意力的结合。该方法在位置嵌入中引入了卷积，从不同阶段考察了不同尺度下特征间的交叉注意力。

Cross-ViT提出了处理不同尺度token的双路Transformer，并采用了基于交叉注意力的token融合模块。

在层次设计方面，Swin-Transformer和PVT都采用了四阶段设计，并逐渐下采样，这有利于下游的视觉任务。

CNN+Transformer

有四种方法：

第一种是将自注意力中的位置嵌入与卷积相结合，包括CVPT和CoaT；
第二种是在自注意力前应用卷积，包括CvT、CoAtNet和BoTNet；
第三个是在自注意力后插入卷积，包括LocalViT和PVTv2；
第四种是并行的自注意力和卷积，包括AA和LESA。

与上述所有将局部卷积与全局自注意力合并的方法不同，本文提出了卷积自注意力(Convolutional self-attention, CSA)，它将自注意力和卷积结合在一起，并在模型的第一阶段将3×3 kernel作为一个强大的层。

Recursive Convolutional Neural Networks 递归卷积神经网络

递归方法已被用于卷积神经网络(CNNs)的各种视觉任务。它包括图像识别、超分辨率、目标检测、语义分割。与这些方法不同的是，本文在轻量级Vision Transformer中研究了一种递归方法作为通用Backbone。具体而言，提出了一种具有多尺度query信息的递归自注意力层，有效地提高了移动端模型的性能。

Lite Vision Transformer

本文提出了Lite Vision Transformer (LVT)，如图 2 所示。作为多视觉任务的 backbone，本文遵循标准的四阶段设计。每个阶段执行一次下采样操作，并由一系列构建块组成。输出分辨率从 stride-4 逐步到 stride-32。与以往的 vision transformers 不同，LVT 是在参数有限的情况下提出的，它具有两个新的自注意力层。第一个是卷积自注意力层，第一阶段采用了 3x3 滑动核。第二个是递归的 Atrous 自注意力层，它有一个全局内核，在最后三个阶段被采用。

*图2：Lite Vision Transformer(LVT)。顶行表示LVT的整体结构。左下角和右下角显示了提出的卷积自我注意(CSA)和递归Atrous自我注意(RASA)。H，W表示图像的高度和宽度。C是feature map通道数。给出了各模块的输出分辨率。展开和折叠操作的步长都是2。BMM代表批处理矩阵乘法，它对应于等式1中的 $W_{i\rightarrow j}x_{j}$ ,batch维度为局部窗口中空间位置的个数。ASA代表被提议的Astrous自我关注。

Convolutional Self-Attention (CSA)

全局感受野有利于自注意力层的特征提取。然而，在视觉模型的早期阶段，由于局域性在处理低层次特征时更为重要，因此首选卷积。与以往将卷积和大核 (全局) 自注意力相结合的方法不同，本文专注于设计一个基于窗口的自注意力层，该层具有 3 × 3 核，并包含卷积的表示。

Analyzing Convolution

Analyzing Self-Attention

Convolutional Self-Attention (CSA)

我们将自我注意和卷积推广为统一的卷积自我注意，如图3所示。其公式如下：

*图3：3×3局部窗口中的卷积自我注意(CSA)图解：卷积和CSA的输出分别为1×1和3×3。从数学上讲，卷积包括两个过程：批处理矩阵乘法(BMM)和求和。BMM对应于等式1中的Wi→j xj。批次维度为空间位置数。CSA具有BMM运算，但具有相同的求和过程SA：它使用等式2中的权重α执行9种不同的依赖于输入的求和，彩色条带和斑块显示了这一过程。通过这种设计，CSA同时包含了可学习过滤器和动态核。

对于局部窗口，SA和CSA都有大小为k×k的输出。当αi→j=1，其中所有的权重相同时，CSA是输出中心的卷积。当 $W_{i\rightarrow j}=W_{v}$ ，其中所有的投影矩阵相同时，CSA是自我注意。当我们使用由输入预测的动态α时，如等式3所示，Outlook attention[63]是CSA的特例。CSA具有比Outlook attention更大的能力。我们在Tab1中总结了它的性质,通过这种推广，CSA同时具有与输入相关的核和可学习的过滤器。CSA 是为增强 vision transformers 第一阶段的表现能力而设计的。

Recursive Atrous Self-Attention (RASA)

轻量化模型更高效，更适合于设备上的应用程序。然而，即使采用先进的模型体系结构，其性能也受到参数数量较少的限制。对于轻量级模型，本文将重点放在通过略微增加参数数量来增强它们的表示能力。

Atrous Self-Attention (ASA)

多尺度特征有利于检测或分割目标。Atrous 卷积提出，用与标准卷积相同数量的参数来捕获多尺度上下文。权值共享的 atrous 卷积也证明了提高模型性能。

与卷积不同，自注意力的特征响应是来自所有空间位置的投影输入向量的加权和。这些权重由query和key之间的相似度确定，并表示任何一对特征向量之间的关系强度。因此，在生成如图4所示的权重时，添加了多尺度信息。具体来说，将query的计算从1×1的卷积升级为以下操作:

首先使用 1 × 1 卷积来应用线性投影。

然后，应用三种具有不同膨胀率但共享内核的卷积来捕获多尺度上下文。通过将组数设置为特征通道数，进一步降低了参数开销。

最后，将不同尺度的并行特征加权求和。

同时本文采用了一种自校准机制，通过激活强度来确定每个尺度的weight。这可以由 SiLU 实现。通过这种设计，自我注意中任意一对空间位置之间的query和key的相似度计算利用了多尺度信息。

*图4：ASA图解：Q，K，V代表self-attention中的query、key和value。在线性投影后，ASA通过三次深度卷积来计算多尺度查询。这些卷积具有相同的核权重，但具有不同的扩张率：1、3、5。它们的输出与Sigmoid函数计算的权重相加，以用于自校准。这可以通过SiLU来实现。多尺度信息被用来计算相似度图，该相似度图对值的和进行加权。

Resursive Atrous Self-Attention (RASA)

对于轻量级模型，在不增加参数使用的情况下增加它们的深度。递归方法在卷积神经网络的许多视觉任务中被提出。与这些方法不同，本文提出了一种自注意力的递归方法。设计遵循标准循环网络的流水线，与Atrous自注意力(ASA)相结合，提出递归Atrous自注意力(RASA)，其公式可以写成:

使用ASA作为非线性激活函数，初始隐藏状态 $h_{-1}=0$ ，是输入状态和隐藏状态相结合的线性函数， $W_{F}$ 和 $U_{F}$ 是投影权值，然而，经验发现，设置提供了最好的性能，并避免引入额外的参数。本文将递归深度设置为 2，以限制计算成本。

Model Architecture

LVT 的架构如表 2 所示。本文采用标准的四阶段设计。采用四个重叠的 Patch embedding 层。第一个将图像采样到 stride-4 分辨率。另外三个样本将特征映射为 stride-8、stride-16 和 stride-32 的分辨率。所有级均由 transformer 块组成。每个块包含自注意力层，后面跟着一个 MLP 层。CSA 嵌入在第 1 阶段，RASA 嵌入在其他阶段。它们是增强的自注意力层，用于处理 LVT 中的局部和全局特征。

Experiments

ImageNet Classification

数据集：ILSVRC2012

结果如表 3 所示。我们将编码器大小限制为小于 3.5M，遵循 MobileNet [45] 和 PVTv2-B0 [54]。编码器是我们的设计重点，因为它是检测和分割等其他复杂任务使用的主干。为了将 LVT 与其他标准模型进行比较，我们将 LVT 缩放到 ResNet50 [19] 的大小，这是视觉模型的规范骨干。展示了 LVT 用于图像识别的高性能。

Mobile ADE20K Semantic Segmentation

数据集：ADE20K

结果总结在表 4 中。FLOPs 是用输入分辨率 512×512 计算的。 FPS 是在单个 NVIDIA V100 GPU 上的 2000 张图像上计算的。在推理过程中，图像的大小会调整为短边为 512。我们只使用单尺度测试。模型紧凑。加上解码器，参数小于4M。我们可以观察到，LVT 在所有以前的移动方法中表现出最好的语义分割性能。

Mobile COCO Panoptic Segmentation

数据集：COCO

结果如表 5 所示。FLOPs 是在输入分辨率 1200 × 800 上计算的。在推理过程中，调整所有图像的大小，使得大边不大于 1333，短边小于 800。FPS 是在单个 NVIDIA V100 GPU 的 2000 个高分辨率图像上计算的。包括解码器在内的整个模型采用的参数少于 5.5M。与之前用于移动全景分割的最先进编码器相比，我们可以观察到 LVT 的优越性。

Ablation Studies

RASA递归次数

在这一部分中，我们研究了递归次数与模型性能之间的关系。实验是在ImageNet分类上进行的。我们将递归时间从1设置为4。结果汇总在表7种。

*表7：递归次数与IMAGENet分类性能的关系。R表示递归次数。两次迭代后，性能显著提高。考虑到效率，我们在主要实验中使用了LVT R2。

Contributions of CSA and RASA

在本节中，我们研究了卷积自我注意 (CSA) 和递归 Atrous Self-Attention 的性能贡献。为此，我们通过最近提出的 VOLO 构建了我们的模型，该模型在第一阶段采用了小内核自注意力。由于 VOLO 被证明是图像识别和语义分割的强大主干，我们在 ImageNet 和 ADE20K 上进行了实验。为了在移动设置中进行比较，我们将 VOLO 缩放为参数大小为 4.0M。具体来说，我们将每个阶段的层数设置为2，并将特征维度调整为96,192,192,192。所有其他设置保持不变。

在下表中。对于ImageNet分类，训练和测试的输入分辨率都是224 × 224。对于ADE20K语义分割，按照SegFormer框架，在MLP解码器中插入VOLO和LVT。在测试期间，图像的短边被调整为512。它被观察到CSA和RASA对性能增益有显著的贡献。

*表6：使用VOLO作为基础网络添加CSA和RASA，因为VOLO在第一阶段使用3×3kernel的self-attention。通过这种比较，可以清楚地说明从局部自注意力到卷积自注意力（CSA）的性能增益。事实证明，CSA 和 RASA 都对性能改进做出了重大贡献。

Conclusion

在这项工作中，我们提出了一种功能强大的轻型变压器主干-Lite Vision Transformer(LVT)。它由两个新的自我注意层组成：卷积自我注意(CSA)和递归Atrous自我注意(RASA)。它们用于LVT的前三个阶段和最后三个阶段，以处理低层和高层特征。在视觉识别、语义分割和全景分割等任务中，与以往的移动方法相比，该方法具有更好的性能。

limitations: LVT 是一种轻量级模型。与具有大量参数的模型相比，其自然限制是较弱的表示能力。这项工作的重点是移动模型。我们未来的工作包括将 LVT 扩展到强大的大型骨干网。

基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
【计算机视觉】人脸识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
一、简介人脸识别是将图像或者视频帧中的人脸与数据库中的人脸进行对比，判断输入人脸是否与数据库中的某一张人脸匹配，即判断输入人脸是谁或者判断输入人脸是否是数据库中的某个人。人脸识别属于1：N的比对，输入人脸身份是1，数据库人脸身份数量为N，一般应用在办公室门禁，疑犯追踪；人脸验证属于1:1的比对，输入人脸身份为1，数据库中为同一人的数据，在安全领域应用比较多。一个完整的人脸识别流程主要包括人脸检测、
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
与机器学习的邂逅--自适应神经网络结构的深度解析想成为高手499 机器学习与人工智能机器学习神经网络人工智能
引言随着人工智能的发展，神经网络已成为许多应用领域的重要工具。自适应神经网络（AdaptiveNeuralNetworks，ANN）因其出色的学习能力和灵活性，逐渐成为研究的热点。本文将详细探讨自适应神经网络的基本概念、工作原理、关键技术、C++实现示例及其应用案例，最后展望未来的发展趋势。自适应神经网络的基本概念什么是自适应神经网络？自适应神经网络是一种能够根据输入数据的变化和环境的动态特性自动
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
ATB是什么？人工智能深度学习
1ATB介绍AscendTransformerBoost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为AscendAI处理器，专门为Transformer类模型的训练和推理而设计。ATB加速库采用了一系列优化策略，包括算法优化、硬件优化和软件优化，能够显著提升Transformer模型的训练和推理速度，同时降低能耗和成本。具体来说，ATB加速库通过优化矩阵乘法等核心算子和注意力
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
基于YOLOv5、YOLOv8和YOLOv10的自助售货机商品检测：深度学习实践与应用 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言自助售货机已经成为现代零售和自动化销售领域的重要组成部分。在自助售货机中，商品的检测与管理至关重要。通过精准的商品检测技术，售货机可以在商品售出后自动更新库存，并提供准确的商品信息反馈。然而，在复杂的环境下进行商品检测是一个具有挑战性的问题，尤其是在商品种类繁多、摆放方式多样以及光照条件变化较大的情况下。近年来，基于深度学习的目标检测算法，特别是YOLO（YouOnlyLookOnce）系列模
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
【论文投稿】探秘计算机视觉算法：开启智能视觉新时代小周不想卷艾思科蓝学术会议投稿计算机视觉
目录引言一、计算机视觉算法基石：图像基础与预处理二、特征提取：视觉信息的精华萃取三、目标检测：从图像中精准定位目标四、图像分类：识别图像所属类别五、语义分割：理解图像的像素级语义六、计算机视觉算法前沿趋势与挑战引言在当今数字化浪潮中，计算机视觉宛如一颗璀璨的明珠，正深刻地改变着我们与世界的交互方式。从安防监控中的精准识别，到自动驾驶汽车的智能导航；从医疗影像的辅助诊断，到工业生产中的缺陷检测，计算
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
使用Llama 3.2-Vision多模态LLM与您的图像聊天 AI程序猿人 llama transformer pytorch 深度学习大模型应用人工智能大模型
介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推理
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔” ningaiiii 机器学习与深度学习神经网络 php 人工智能
径向基函数网络（RBF）：让数据“点亮”神经网络的“灯塔”1.引言径向基函数网络（RadialBasisFunctionNetwork,RBF）是一种特殊的前馈神经网络，它的核心思想是通过“灯塔”来照亮数据的分布。RBF网络使用径向基函数（如高斯函数）作为隐层神经元的激活函数，能够快速学习数据的局部特征，特别适合分类和函数逼近问题。2.算法原理2.1网络结构RBF网络的基本组成包括：输入层：接收原
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
3d系统误差分析 Ai智享结构光 3d 数码相机计算机视觉
系统标定重投影误差预估在计算机视觉和三维重建领域中，评估一个相机系统标定精度的重要指标。通过比较真实的三维点在图像中的投影位置与标定模型计算出的投影位置之间的差异，来衡量标定的准确性。以下是对这一概念的详细解析：什么是系统标定？系统标定(SystemCalibration)是指对一个视觉系统（例如单目相机、双目相机系统或结构光系统）进行参数标定的过程，包括：内参标定：相机的内部参数（如焦距、光心、
一文看懂llama2（原理&模型&训练） Qpeterqiufengyi llama
自从Transformer架构问世以来，大型语言模型（LargeLanguageModels,LLMs）以及AIGC技术的发展速度惊人，它们不仅在技术层面取得了重大突破，还在商业应用、社会影响等多个层面展现出巨大潜力。随着ChatGPT的推出，这一技术日益走进大众视野，这也预示着一个由生成式AI塑造的未来正在加速到来。与此同时，MetaAIMetaAI在2023年推出了LLama（LargeLan
提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLOv8 YOLO 目标跟踪
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（附代码+详细修改步骤+
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
YOLOv8与Transformer：探索目标检测的新架构 AI架构设计之禅 AI大模型应用入门实战与进阶大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv8与Transformer：探索目标检测的新架构关键词：目标检测，深度学习，YOLOv8，Transformer，计算机视觉，卷积神经网络摘要：目标检测是计算机视觉领域的一项重要任务，其目标是从图像或视频中识别和定位特定对象。近年来，YOLO（YouOnlyLookOnce）系列算法以其高精度和高速度成为目标检测领域的佼佼者。最新版本的YOLOv8引入了Transformer架构，进一步
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

论文阅读|LVT

Abstract

Introduction

Related Work

Vision Transformer

CNN+Transformer

Recursive Convolutional Neural Networks 递归卷积神经网络

Lite Vision Transformer

Convolutional Self-Attention (CSA)

Analyzing Convolution

Analyzing Self-Attention

Convolutional Self-Attention (CSA)

Recursive Atrous Self-Attention (RASA)

Atrous Self-Attention (ASA)

Resursive Atrous Self-Attention (RASA)

Model Architecture

Experiments

ImageNet Classification

Mobile ADE20K Semantic Segmentation

Mobile COCO Panoptic Segmentation

Ablation Studies

RASA递归次数

Contributions of CSA and RASA

Conclusion

你可能感兴趣的:(transformer,网络结构,计算机视觉,transformer,深度学习)