MJ5513

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(论文翻译)

摘要

本文提出了一种新的视觉转换器，称为Swin Transformer，它可以作为计算机视觉的通用主干。在将Transformer从语言适应到视觉方面的挑战源于这两个领域之间的差异，例如视觉实体的规模差异很大，以及图像中的像素与文本中的文字相比分辨率较高。为了解决这些差异，我们提出了一种分层转换器，其表示是通过移位窗口来计算的。移位窗口方案通过将自我注意计算限制在非重叠的局部窗口，同时还允许跨窗口连接，从而带来了更高的效率。这种分层结构具有在不同尺度上建模的灵活性，并且具有关于图像大小的线性计算复杂性。Swin Transformer的这些特性使其与广泛的视觉任务兼容，包括图像分类(ImageNet-1K的TOP-1准确率为87.3)和密集预测任务，例如目标检测(COCO Testdev上的58.7box AP和51.1 MASK AP)和语义分割(ADE20K Val上的53.5mIoU)。它的性能大大超过了之前最先进的产品，COCO上的+2.7box AP和+2.6 MASK AP，以及ADE20K上的+3.2Miou，显示了基于Transformer的模型作为视觉主干的潜力。分层设计和移位窗口方法也被证明对全MLP架构是有益的。代码和模型可在以下网址公开获取 https://github.com/microsoft/Swin-Transformer.

1.引言

长期以来，计算机视觉中的建模一直由卷积神经网络(CNN)主导。从AlexNet[39]及其在ImageNet图像分类挑战中的革命性表现开始，通过更大的规模[30，76]，更广泛的连接[34]，以及更复杂的卷积形式[70，18，84]CNN的架构已经演变成越来越强大。由于CNN作为各种视觉任务的主干网络，这些架构的进步导致了性能的改进，广泛提升了整个领域。

另一方面，自然语言处理(NLP)中网络体系结构的演变走了一条不同的道路，今天流行的体系结构是Transformer[64]。Transformer专为序列建模和转换任务而设计，值得注意的是它使用注意力来模拟数据中的远程依赖关系。它在语言领域的巨大成功促使研究人员研究它对计算机视觉的适应性，最近它在某些任务上展示了有希望的结果，特别是图像分类[20]和联合视觉-语言建模[47]。

在本文中，我们试图扩展transformer的适用性，使其可以作为通用的计算机视觉的主干，就像NLP和CNN在视觉中所做的那样。我们观察到，将其在语言领域的高性能转换到视觉领域的重大挑战可以用这两种通道之间的差异来解释。这些不同之处之一涉及尺度。与在语言转换器中充当基本处理元素的单词标记不同，视觉元素在规模上可以有很大的变化，这是一个在物体检测等任务中引起注意的问题[42，53，54]。在现有的基于Transformer的模型[64，20]中，令牌都是固定比例的，这一特性不适合这些视觉应用。另一个不同之处是，与文本段落中的文字相比，图像中像素的分辨率要高得多。存在许多视觉任务，如语义分割，需要在像素级进行密集预测，而这对于高分辨率图像上的Transformer来说是困难的，因为其自我注意的计算复杂度与图像大小是平方的。为了克服这些问题，我们提出了一种通用的Transformer骨干网，称为Swin Transformer，它构造了分层的特征映射，具有与图像大小成线性的计算复杂性。如图1(a)所示，Swin Transformer通过从小面片(灰色轮廓)开始并逐渐合并较深Transformer层中的相邻面片来构建分层表示。有了这些分层的特征映射，Swin Transformer模型可以方便地利用高级技术进行密集预测，如特征金字塔网络(FPN)[42]或U-Net[51]。线性计算复杂性是通过在分割图像的非重叠窗口内局部计算自我注意来实现的(红色轮廓)。每个窗口中的patch数量是固定的，因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干，而不是以前基于Transformer的架构[20]，后者生成单一分辨率的特征地图，并且具有二次复杂性。

图1。(a)提出的Swin Transformer通过在更深的层中合并图像块(以灰色显示)来构建分层特征图，并且由于仅在每个局部窗口(以红色显示)内进行自我注意计算，因此对于输入图像大小具有线性计算复杂性。因此，它可以作为图像分类和密集识别任务的通用主干。
(b)相比之下，以前的视觉转换器[20]产生单一低分辨率的特征地图，并且由于全局自注意计算，对于输入图像大小具有二次计算复杂性。

Swin Transformer的一个关键设计元素是它在连续的自我关注层之间移动窗口分区，如图2所示。移动的窗口连接了前一层的窗口，提供了它们之间的连接，显著增强了建模能力(参见表4)。该策略在实际延迟方面也是有效的：一个窗口内的所有查询补丁共享相同的密钥集，这便于硬件中的内存访问。相反，较早的基于滑动窗口的自我注意方法[33，50]由于不同查询像素的不同键集而在一般硬件上受到低延迟的影响。我们的实验表明移动窗口方法比滑动窗口方法有更低的延时，然而在建模能力方面是相似的(参见表5和6)。移位窗口方法也被证明对全MLP体系结构有益[61]。

图2.在建议的Swin Transformer架构中计算自我注意的移位窗口方法的图示。在l层(左)，采用规则的窗口划分方案，并在每个窗口内计算自我关注。在下一层l+1(右)中，窗口分区被移位，从而产生新窗口。新窗口中的自我注意计算跨越了层l中先前窗口的边界，提供了它们之间的连接。

本文提出的Swin Transformer在图像分类、目标检测和语义分割等识别任务中取得了较好的性能。它的性能显著优于Vit/Deit[20，63]和ResNe(X)t模型[30，70]，而在三个任务上的延迟相似。它在COCO测试开发集上的58.7box AP和51.1mask AP超过了之前最先进的结果+2.7box AP(复制-粘贴[26]无外部数据)和+2.6mask AP(DetectiRS[46])。在ADE20K语义切分上，它在Val集合上获得了53.5Mou，比之前的最先进水平(SETR[81])提高了+3.2Mou。在ImageNet-1K图像分类上达到了87.3%的TOP-1正确率。

我们认为，跨计算机视觉和自然语言处理的统一架构可以使这两个领域受益，因为它将促进视觉和文本信号的联合建模，并且两个领域的建模知识可以更深入地共享。我们希望，Swin Transformer在各种视觉问题上的强劲表现可以在社区中推动这种信念的加深，并鼓励对视觉和语言信号进行统一建模。

2.相关工作

CNN及其变种。CNN作为整个计算机视觉的标准网络模型。虽然CNN已经存在了几十年[40]，但直到AlexNet的引入[39]，CNN才起飞并成为主流。从那时起，人们提出了更深入、更有效的卷积神经结构来进一步推动计算机视觉中的深度学习浪潮，例如VGG[52]、GoogLeNet[57]、ResNet[30]、DenseNet[34]、HRNet [65], and EfficientNet [58]。除了这些结构上的进步之外，还在改进单个卷积层方面做了大量工作，例如深度卷积[70]和可变形卷积[18，84]。虽然CNN及其变体仍然是计算机视觉应用程序的主要骨干架构，但我们强调了变形金刚类架构在视觉和语言之间统一建模方面的强大潜力。我们的工作在几个基本的视觉识别任务上取得了很好的表现，我们希望这将有助于模型的转变。

基于自我注意的主干体系结构。同样受到自我关注层和变形金刚架构在自然语言处理领域的成功的启发，一些作品使用自我关注层来取代流行的ResNet中的部分或全部空间卷积层[33，50，80]。在这些工作中，自我关注是在每个像素的局部窗口内计算的，以加快优化[33]，并且它们实现了比对应的ResNet体系结构略好的精度/浮点折衷。然而，它们昂贵的存储器访问导致它们的实际等待时间明显大于卷积网络的延迟[33]。我们不使用滑动窗口，而是在连续的层之间移动窗口，这允许在通用硬件上更有效地实现。

自我注意/Transformers完善CNN。另一项工作是用自我关注层或变形金刚来增强标准的CNN架构。自我关注层可以通过提供对远程依赖或异类交互进行编码的能力来补充骨干网络[67、7、3、71、23、74、55]或头部网络[32、27]。最近，Transformer中的编解码器设计已被应用于目标检测和实例分割任务[8，13，85，56]。我们的工作探索了变形金刚对基本视觉特征提取的适应，是对这些工作的补充。

基于transformer的视觉主干。与我们的工作最相关的是视觉变形(VIT)[20]及其后续工作[63、72、15、28、66]。VIT的开创性工作直接将Transformer体系结构应用于非重叠的中等大小图像块上进行图像分类。与卷积网络相比，它在图像分类的速度和精度上取得了令人印象深刻的折衷。虽然VIT需要大型训练数据集(即JFT-300M)才能表现良好，但Deit[63]引入了几种训练策略，使VIT也可以使用较小的ImageNet-1K数据集进行有效训练。VIT在图像分类上的效果是令人鼓舞的，但其体系结构不适合用作密集视觉任务或高输入图像分辨率的通用骨干网络，因为其低分辨率的特征图和随着图像大小的复杂性平方增加。已有一些工作将VIT模型应用于通过直接上采样或反卷积进行目标检测和语义分割的密集视觉任务，但性能相对较低[2，81]。与我们的工作同时进行的是修改VIT体系结构[72、15、28]以实现更好的图像分类。经验上，我们发现我们的Swin Transformer架构在这些图像分类方法中实现了最佳的速度精度折衷，尽管我们的工作重点是通用性能而不是专门的分类。另一项同时进行的工作[66]探索了在《变形金刚》上构建多分辨率特征地图的类似思路。它的复杂度仍然是图像大小的二次方，而我们的算法是线性的，并且也是局部操作的，这已经被证明在对视觉信号的高度相关性进行建模[36，25，41]方面是有益的。我们的方法既高效又有效，在COCO对象检测和ADE20K语义分割方面都达到了最高的准确率。

3.方法

3.1 整体架构

图3显示了Swin Transformer体系结构的概述，其中演示了微型版本(Swint)。它首先通过patch分割模块(如VIT)将输入的RGB图像分割成不重叠的面片。每个patch都被视为一个“token”，其特征被设置为原始像素RGB值的串联。在我们的实现中，我们使用了4×4的块大小，因此每个块的特征维度为4×4×3=48。将线性嵌入层应用于该原始值特征以将其投影到任意维度(表示为C)。

图3.(a)Swin Transformer的架构(Swin-T)；(b)两个连续的Swin Transformer块(用公式3表示)。W-MSA和SW-MSA分别是具有规则和移位窗口配置的多头自我注意模块。

在这些patch tokens上应用了几个带有修改的自我注意计算的变形器块(Swin Transformer块)。变换器块保持令牌的数量(H/4×W/4)，与线性嵌入一起被称为阶段1。

为了产生分层表示，随着网络的深入，通过patch合并层来减少token的数量。第一层将每组2×2相邻patch的特征拼接在一起，并在4C维拼接的特征上应用一个线性层。这将token数减少2×2=4的倍数(分辨率的2倍下采样)，并且输出维度被设置为2C。然后应用Swin Transformer块进行特征变换，分辨率保持在H/8×W/8。这个第一块的patch合并和特征变换被表示为“阶段2”。该过程重复两次，分别为输出分辨率为16/H×W/16和32/H×W/32的“阶段3”和“阶段4”。这些阶段共同产生分层表示，具有与典型卷积网络相同的特征映射分辨率，例如VGG[52]和ResNet[30]。因此，该体系结构可以方便地取代现有方法中的骨干网络，用于各种视觉任务。

Swin Transformer块。Swin Transformer是通过将变压器模块中的标准多头自我注意(MSA)模块替换为基于移位窗口的模块(在第3.2节中描述)来构建的，而其他层保持不变。如图3(b)所示，Swin Transformer模块由一个基于移位窗口的MSA模块和一个中间带有Gelu非线性的两层MLP组成。在每个MSA模块和每个MLP之前应用LayerNorm(LN)层，并且在每个模块之后应用剩余连接。

3.2 基于移位窗口的自我注意

标准的变压器体系结构[64]及其用于图像分类的适配[20]都进行全局自我注意，其中计算token和所有其他token之间的关系。全局计算导致了关于令牌数量的二次复杂性，使得它不适合于许多需要大量token集来进行密集预测或表示高分辨率图像的视觉问题。

非重叠窗口中的自我注意。为了有效地建模，我们建议在局部窗口内计算自我注意。窗口被布置成以不重叠的方式均匀地分割图像。假设每个窗口包含M×M个patch，在一张包含h×w个patch的图像上全局MSA模块和一个窗口的计算复杂度分别为：

其中，前者与patch数量HW二次，后者在M固定时为线性(默认情况下设置为7)。全局自我注意计算对于较大的硬件来说通常是负担不起的，而基于窗口的自我注意是可伸缩的。

连续块中的移位窗口划分。基于窗口的自我注意模块缺乏跨窗口的连接，这限制了其建模能力。为了在保持非重叠窗口计算效率的同时引入跨窗口连接，我们提出了一种移位窗口划分方法，该方法在连续的Swin Transformer块中的两个划分配置之间交替。

如图2所示，第一个模块使用从左上角像素开始的规则窗口划分策略，将8×8特征图均匀划分为大小为4×4(M=4)的2×2个窗口。然后，下一个模块通过将窗口从规则划分的窗口移位(M/2,M/2)个像素来采用从前一层的窗口移位的窗口配置。

利用移位窗口分区方法，连续的Swin Transformer块被计算为

其中，z^l和zl分别表示块l的(S)WMSA模块和MLP模块的输出特征；W-MSA和SW-MSA分别表示使用规则和移位窗口分区配置的基于窗口的多头自关注。

移位窗口划分方法引入了前一层中相邻非重叠窗口之间的连接，并被发现在图像分类、目标检测和语义分割中是有效的，如表4所示。

移位配置的高效批处理计算。移位窗口划分的一个问题是，它将导致移位配置中更多的窗口，从h/M×w/M到(h/M+1)×(w/M+1)，并且一些窗口将小于M×M。一个天真的解决方案是将较小的窗口填充到M×M的大小，并在计算注意力时屏蔽填充的值。当规则分区中的窗口数量较小时，例如。
2×2，增加了相当多的计算量(2×2.3×3，是2.25倍)。在这里，我们提出了一种更高效的批处理计算方法，即向左上角方向循环移位，如图4所示。在这种转移后，批处理窗口可能由特征图中不相邻的几个子窗口组成，因此采用掩蔽机制将自我注意计算限制在每个子窗口内。在循环移位的情况下，批处理窗口的数目与常规窗口划分的数目相同，因此也是有效的。表5显示了该方法的低延迟。

相对位置偏差。在计算自我注意时，我们遵循[49，1，32，33]，在计算相似性时包括每个头部的相对位置偏差B∈RM2×M2：

其中Q；K；V∈RM2×d是查询、键和值矩阵；d是查询/键维度，M2是窗口中的patch数量。由于每个轴上的相对位置在[−M+1；M−1]范围内，我们将一个较小的偏差矩阵B^∈R(2M−1)×(2M−1)参数化，B中的值取自B^。

我们观察到，与没有这个偏置项或使用绝对位置嵌入的同类相比，有了显著的改进，如表4所示。此外，如[20]中那样，在输入中添加绝对位置嵌入会略微降低性能，因此我们的实现中没有采用它。

在预训练中学习的相对位置偏差还可以用于通过双三次内插[20，63]来初始化用于微调的模型，该模型具有不同的窗口大小。

3.3 体系结构变体

我们构建了名为Swin-B的基本模型，其模型大小和计算复杂性与ViTB/Deit-B相似。我们还介绍了Swin-T、Swin-S和Swin-L，它们分别是模型规模和计算复杂度的0.25×、0.5×和2倍的版本。请注意，Swin-T和Swin-S的复杂性分别与ResNet-50(Deit-S)和ResNet-101相似。默认情况下，窗口大小设置为M=7。对于所有的实验，每个头的查询维度为d=32，每个MLP的扩展层为α=4。这些模型变体的体系结构超参数包括：

其中C是第一级中的隐藏层的通道号。表1列出了用于ImageNet图像分类的模型变量的模型大小、理论计算复杂性(Flop)和吞吐量。

4.实验

我们在ImageNet-1K图像分类[19]、COCO目标检测[43]和ADE20K语义分割[83]上进行了实验。在下文中，我们首先在三个任务上将建议的Swin Transformer架构与以前的最先进架构进行比较。然后，我们对Swin Transformer的重要设计元素进行了消融实验。

4.1 基于ImageNet-1K的图像分类

4.2 基于CoCo的目标检测

4.3. 基于ADE20K的语义切分

4.4 消融实验

5.结论

本文介绍了一种新的视觉转换器Swin Transformer，它产生了一种分层的特征表示并且具有关于输入图像大小的线性计算复杂性。Swin Transformer在CoCo目标检测和ADE20K语义分割方面实现了最先进的性能，大大超过了以往最好的方法。我们希望，Swin Transformer在各种视觉问题上的强劲表现将鼓励对视觉和语言信号进行统一建模。

作为Swin Transformer的一个关键元素，基于移位窗口的自我注意被证明在解决视觉问题上是有效和高效的，我们期待着研究它在自然语言处理中的应用。

从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows(论文翻译)

你可能感兴趣的:(目标跟踪论文翻译,transformer,深度学习,人工智能)