路人贾'ω'

《Swin Transformer Hierarchical Vision Transformer using Shifted Windows》论文超详细解读（翻译＋精读）

前言

《Swin Transformer Hierarchical Vision Transformer using Shifted Windows》作为2021 ICCV最佳论文，屠榜了各大CV任务，性能优于DeiT、ViT和EfficientNet等主干网络，已经替代经典的CNN架构，成为了计算机视觉领域通用的backbone，是继Vit之后的Transformer在CV领域的巅峰之作。它基于ViT模型的思想，创新性地引入了滑动窗口机制，让模型能够学习到跨窗口的信息，同时通过下采样层，使得模型能够处理超分辨率的图片，节省计算量以及能够关注全局和局部的信息。接下来我们就一起通过论文了解一下吧！

学习资料：

论文原文： https://arxiv.org/pdf/2103.14030.pdf

源码地址： GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows".

前期回顾

【Transformer系列（1）】encoder（编码器）和decoder（解码器）

【Transformer系列（2）】注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解

【Transformer系列（3）】《Attention Is All You Need》论文超详细解读（翻译＋精读）

【Transformer系列（4）】Transformer模型结构超详细解读

【Transformer系列（5）】Transformer代码超详细解读（Pytorch）

【ViT系列（1）】《AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》论文超详细解读（翻译＋精读）【ViT系列（2）】ViT（Vision Transformer）代码超详细解读（Pytorch）

前言

Abstract—摘要

一、Introduction—简介

二、Related Work—相关工作

三、Method—方法

3.1 Overall Architecture—总体架构

3.2 Shifted Window based Self-Attention—基于移位窗口的self-attention

Shifted window partitioning in successive blocks—在连续块中移位窗口分区

Efficient batch computation for shifted configuration—高效的批量计算移位配置

Relative position bias—相对位置偏置

3.3 Architecture Variants—结构变体

四、Experiments—实验

4.1 Image Classification on ImageNet-1K—在ImageNet-1K上进行图像分类

常规ImageNet-1K训练

ImageNet-22K的预训练和ImageNet-1K的微调

4.2 Object Detection on COCO—COCO数据集上的目标检测

4.3 Semantic Segmentation on ADE20K—在ADE20K上语义分割

4.4 Ablation Study—消融实验

五、Conclusion—结论

Abstract—摘要

翻译

本文提出了一种新的vision Transformer，称为Swin Transformer，它能够作为计算机视觉的通用骨干网络。从语言到视觉的挑战来自于这两个领域之间的差异，比如视觉实体规模的变化很大，以及图像中像素比文本中单词的高分辨率。为了解决这些差异，我们提出了一个分层Transformer，其表示是由Shifted windows计算的。Shifted windows方案将自注意计算限制在非重叠的局部窗口上，同时允许跨窗口连接，从而提高了更高的效率。这种层次结构具有在不同尺度上建模的灵活性，并且对图像大小具有线性的计算复杂度。 Swin Transformer的这些品质使其兼容广泛的视觉任务，包括图像分类(87.3top-1 ImageNet-1K)和密集的预测任务，如目标检测（58.7box AP和51.1mask AP可测试开发）和语义分割(53.5mIoU 在ADE20K验证集)。它的性能大大超过了之前的先进技术，即COCO上的+2.7boxAP和+2.6mask AP，以及ADE20K上的+3.2mIoU，展示了基于Transformer的模型作为视觉骨干的潜力。分层设计和Shifted windows方法也被证明对全MLP架构是有益的。这些代码和模型可以在https://github.com/microsoft/Swin-Transformer。

精读

本文主要内容

（1）本文提出了一个分层的Transformer，表示通过移位窗口计算，称为Swin Transformer。

（2）主要方法是通过将自我注意计算限制在不重叠的局部窗口上，同时允许跨窗口连接。

（3）Swin Transformer在图像分类、目标检测和语义分割的任务上，性能大大超过了之前的模型。

一、Introduction—简介

翻译

计算机视觉中的建模长期以来一直由卷积神经网络(CNNs)所主导。从AlexNet[39]和它在ImageNet图像分类挑战上的革命性性能开始，CNN架构通过更大规模的[30,76]、更广泛的连接[34]和更复杂的卷积[70,18,84]形式变得越来越强大。随着cnn作为各种视觉任务的骨干网络，这些架构上的进步导致了性能的改进，并广泛地提升了整个领域。

另一方面，自然语言处理(NLP)中网络体系结构的发展采取了不同的道路，今天流行的体系结构是Transformer。为序列建模和转导任务而设计，Transformer以其对数据中的长期依赖进行建模而闻名。它在语言领域的巨大成功使研究人员研究了其对计算机视觉的适应性，最近它在某些任务上显示出了有希望的结果，特别是图像分类[20]和联合视觉语言建模[47]。

在本文中，我们试图扩大Transformer的适用性，使它可以作为计算机视觉的通用主干，就像它在NLP和cnn在视觉中所做的那样。我们观察到，将其在语言领域的高性能转移到视觉领域的重大挑战可以用两种模式之间的差异来解释。其中一个差异涉及到规模。与在语言Transformer中作为处理的基本元素的单词标记不同，视觉元素在尺度上可以有很大的变化，这是一个在对象检测[42,53,54]等任务中引起注意的问题。在现有的基于Transformer的模型[64,20]中，tokens都是固定规模的，不适合这些视觉应用。另一个区别是图像中像素的分辨率比文本中的文字要高得多。存在许多视觉任务，如语义分割，需要在像素级进行密集预测，这对于高分辨率图像上的Transformer是难以处理的，因为其自注意力的计算复杂度与图像大小是二次的。为了克服这些问题，我们提出了一种通用的Transformer主干，称为SwinTransformer，它构造层次特征映射，并对图像大小具有线性计算复杂度。如图1(a)所示，Swin Transformer通过从小尺寸的patch（灰色轮廓）开始，并在更深的Transformer层中逐渐合并相邻的patch来构建一个层次表示。有了这些层次的特征图，Swin Transformer模型可以方便地利用先进的技术进行密集预测，如特征金字塔网络(FPN)[42]或U-Net[51]。线性计算复杂度是通过在对图像进行分割的窗口（用红色表示）的非重叠窗口内局部计算自注意力来实现的。每个窗口中的patch数量是固定的，因此复杂度与图像大小成线性关系。这些优点使得Swin Transformer适合作为各种视觉任务的通用骨干，而以前基于Transformer的架构[20]，它产生单一分辨率的特征图，具有二次复杂度。

Swin Transformer的一个关键设计元素是它在连续的自注意层之间的窗口分区的位移，如图2所示。移动后的窗口连接了前一层的窗口，提供了它们之间的连接，显著提高了建模能力（见表4）。这种策略对于现实世界的延迟也很有效：窗口内的所有query patches共享相同的key set，这有助于硬件中的内存访问。相比之下，早期基于滑动窗口的自注意方法[33,50]由于不同query像素2的keys不同，在一般硬件上存在较低的延迟。我们的实验表明，所提出的移位窗口方法比滑动窗口方法的延迟要低得多，但在建模能力上却很相似（见表5和表6）。shifted window方法也证明对所有MLP架构[61]都是有益的

该Swin Transformer在图像分类、目标检测和语义分割等识别任务上取得了较好的性能。它在三个任务上显著优于ViT/DeiT[20,63]和ResNe(X)t模型[30,70]，并且在三个任务上具有相似的延迟期。它在COCO测试集上的58.7 boxAP和51.1 maskAP超过了之前由+2.7 boxAP（没有外部数据的Copy-paste[26]）和+2.6maskAP(DetectoRS[46])得到的最先进的结果。在ADE20K语义分割上，它在val集上获得了53.5 mIoU，比之前的+(SETR[81])改进了3.2mIoU。它在ImageNet-1K图像分类上也达到了87.3%的top-1位精度。

我们相信，跨计算机视觉和自然语言处理的统一架构可以有利于这两个领域，因为它将促进视觉和文本信号的联合建模，而来自这两个领域的建模知识可以更深入地共享。我们希望Swin Transformer在各种视觉问题上的出色表现能够在社区中加深这种信念，并鼓励视觉和语言信号的统一建模。

精读

Transformer从NLP搬到CV的难点

（1）规模。图像包含像素信息更多，而且规模不一。

（2）图像像素的分辨率比文本段落中的单词高得多。如果以像素点为单位，则计算量爆炸，序列长度爆炸，所以之前ViT提出了patch方案或小窗口+自注意力等，都是为了解决序列长度问题。

Swim Transformer 与 ViT 区别

图(1)是Swin Transformer和ViT的对比

Swin Transformer 能够像卷积神经网络当中构建出具有层次性的特征图，对于目标检测和分割任务有更大的优势。

ViT中都是保持下采样的规律不变，所以没法像 Swin Transformer 构建出具有层次性的特征层。

Swin Transformer 中以窗口的形式将特征图分开了，窗口与窗口之间不进行信息传递，能够降低运算量。
ViT特征图是一个整体，并没有进行分割，全局建模，由于全局自注意的计算，对输入图像的大小具有平方倍的计算复杂度。

本文的主要方法

图（2）表示的是Swin Transformer在连续的自我注意层之间转移窗口分区

（1）第l层(左)采用常规的窗口分区方案，在每个窗口内进行自注意计算。

（2）在下一层l + 1(右)中，窗口分区被移动，产生新的窗口。

二、Related Work—相关工作

翻译

CNN and variants cnn作为整个计算机视觉的标准网络模型。虽然CNN已经存在了几十年，但直到AlexNet[39]的引入，CNN才成为主流。从那时起，更深层次、更有效的卷积神经结构被提出来进一步推动计算机视觉中的深度学习浪潮，如VGG[52]、GoogleNet[57]、ResNet[30]、DenseNet[34]、HRNet[65]和EffificientNet[58]。除了这些架构上的进步之外，还有许多改进个体卷积层的工作，如深度卷积[70]和可变形卷积[18,84]。虽然CNN及其变体仍然是计算机视觉应用程序的主要主干架构，但我们强调了类似变压器的架构在视觉和语言之间的统一建模方面的强大潜力。我们的工作在几个基本的视觉识别任务上取得了强大的表现，我们希望它将有助于建模的转变。

Self-attention based backbone architectures 同样受到自注意层和transformer架构在自然语言处理领域的成功的启发，一些作品采用自注意层来取代流行的ResNet[33,50,80]中的部分或全部空间卷积层。在这些工作中，自注意力在每个像素的局部窗口内计算，以加快优化[33]，它们比对应的ResNet架构获得了略微更好的精度/FLOPs权衡。然而，它们昂贵的内存访问导致它们的实际延迟明显大于卷积网络[33]。我们建议使用滑动窗口，我们建议在连续层之间移动窗口，这允许在一般硬件中更有效地实现。

Self-attention/Transformers to complement CNNs 另一项工作是用自我注意层或Transformers来增强标准的CNN架构。自注意层可以通过提供编码远程依赖或异构交互的能力来补充主干[67,7,3,71,23,74,55]或头部网络[32,27]。近年来，Transformers中的编解码器设计已被应用于目标检测和实例分割任务[8,13,85,56]。我们的工作探索了Transformers的基本视觉特征提取，是这些作品的补充。

Transformer based vision backbones 与我们的工作最相关的是Vision Transformer (ViT)及其后续的[63,72,15,28,66]。ViT的开创性工作直接将Transformer架构应用于不重叠的中型图像patch上进行图像分类。与卷积网络相比，它在图像分类上取得了令人印象深刻的速度-精度权衡。虽然ViT需要大规模的训练数据集(即JFT-300M)才能表现良好，但DeiT[63]引入了几种训练策略，使ViT也能够有效地使用较小的ImageNet-1K数据集。生活在图像分类的结果是令人鼓舞的，但其架构不适合作为通用骨干网络密集视觉任务或输入图像分辨率高，由于其低分辨率的特征地图和图像大小的二次增加复杂性。目前已有一些研究将ViT模型通过直接上采样或反卷积应用于目标检测和语义分割的密集视觉任务，但[2,81]性能相对较低。与我们的工作同时，有一些修改了ViT架构[72,15,28]，以更好的图像分类。根据经验，我们发现我们的Swin Transformer 架构在这些关于图像分类的方法中实现了最佳的速度精度权衡，尽管我们的工作集中于通用性能，而不是特别的分类。另一个同时进行的工作，[66]探索了类似的思路，在Transformer 上构建多分辨率的特征地图。它的复杂度仍然是图像大小的二次型，而我们的复杂性是线性的，并且也在局部工作，这已被证明有利于建模视觉信号[36,25,41]的高相关性。我们的方法既高效又有效，在COCO目标检测和ADE20K语义分割上都实现了最先进的准确性。

精读

CNN and variants： 这一段介绍了CNN以及它的各种变体，如VGG、GoogleNet、ResNet等，没啥可看的。
Self-attention based backbone architectures： 最近一些工作使用基于self-attention的骨干网络取代流行的ResNet中的部分或全部空洞卷积层，但是它们巨大的内存访问导致它们的实际延迟明显大于卷积网络。
Self-attention/Transformers to complement CNNs： 另一项工作是用self-attention layer或transformer增强标准CNN架构。最近，Transformer中的编码器-解码器设计已被应用于目标检测和实例分割任务。
Transformer based vision backbones： 这就是ViT等相关的一些基于Transformer的视觉骨干网络。

三、Method—方法

3.1 Overall Architecture—总体架构

翻译

图3显示了Swin 架构的概述，它说明了一个小版本(SwinT)。它首先通过一个patch分割模块将一个输入的RGB图像分割成不重叠的补丁，比如ViT。每个patch都被视为一个“token”，其特性被设置为原始像素RGB值的连接。在我们的实现中，我们使用了4×4的patch大小，因此每个patch的特征维度是4×4×3=48。在这个原始值特征上应用一个线性embeding层，将其投射到一个任意维度(记为C)。

在这些patch tokens上应用了几个具有改进的自注意计算的变压器块(Swin Transformer块)。Transformer块保持了tokens的数量(H/4×W/4)，并与线性embeding一起被称为“阶段1”。

为了生成层次表示，随着网络的深入，patch合并层就减少了标记的数量。第一个patch合并层将每一组2×2个相邻patch的特征连接起来，并在4c维连接的特征上应用一个线性层。这将“token”的数量减少了2×2=4的倍数（2×分辨率的降采样），输出维度被设置为2C。然后应用Swin Transformer块进行特征变换，分辨率保持在H/8×W/8。这个patch合并和特征转换的第一个块被表示为“阶段2”。该过程重复两次，如“阶段3”和“阶段4”，输出分辨率分别为H/16×W/16和H/32×W/32。这些阶段共同产生了一个与典型的卷积网络具有相同的特征图分辨率的层次表示，例如，VGG[52]和ResNet[30]。因此，所提出的架构可以方便地取代现有方法中的各种视觉任务。

Swin Transformer block Swin Transformer是通过将Transformer块中的标准多头自注意(MSA)模块替换为基于移动窗口的模块（见第3.2节），其他层保持不变。如图3(b)所示，一个SwinTransformer块由一个基于移位窗口的MSA模块组成，然后是一个中间具有GELU非线性的2层MLP。在每个MSA模块和每个MLP之前应用一个LayerNorm(LN)层，在每个模块之后应用一个残差连接。

精读

（a）Swin Transformer (Swin- t)的结构
（b）两个连续的Swin transformer块
W-MSA是具有规则窗口配置
SW-MSA是移位窗口配置的多头自注意模块

流程

Patch Partition

Images分割成不重叠的patches，patch相当于Transformer的token，使用4×4的patch大小，因此每个patch的特征维数为4×4×3 = 48。

Stage 1

每个patch的特征应用线性嵌入层(Linear Embedding)，将其投射到任意维度(记为C)。

这些patches token上应用Swin Transformer Block。Transformer Block维持 token 的数量(H/4 × W/4)。

Stage 2

第一个patches合并层将相邻4个patches的特征拼接起来(减少 token 的数量)，并在4c维的拼接特征上应用一个线性层。这将 patches 的数量减少了 4的倍(分辨率的2倍下采样)，并且输出维数设置为2C。

然后应用 Swin Transformer Block 进行特征变换，分辨率保持在H/8 × W/8。

Stage 3

同 Stage 2，输出分辨率分别为H/16 × W/16。

Stage 4

同 Stage 2，输出分辨率分别为H/32 × W/32 。

3.2 Shifted Window based Self-Attention—基于移位窗口的self-attention

翻译

标准的Transformer 体系结构[64]及其对图像分类[20]的适应都进行全局自关注，其中一个token和所有其他token之间的关系被计算。全局计算导致了关于标记数量的二次复杂度，这使得它不适合许多需要大量标记来进行密集预测或表示高分辨率图像的视觉问题。

Self-attention in non-overlapped windows 为了有效地建模，我们建议在局部窗口内计算自注意。这些窗口被安排成以不重叠的方式均匀地分割图像。假设每个窗口包含M×M patch，则一个全局MSA模块和一个基于h×w patchs图像的窗口的计算复杂度为

其中，前者与patches数hw之间为二次型，当M固定（默认设置为7）时，后者为线性型。全局自注意计算对于一个大的hw通常是不可承受的，而基于窗口的自注意计算是可扩展的。

Shifted window partitioning in successive blocks 基于窗口的自注意模块缺乏跨窗口的连接，这限制了其建模能力。为了在保持非重叠窗口计算效率的同时引入跨窗口连接，我们提出了一种移位窗口划分方法，该方法在连续的Swin Transformer块中的两种划分配置之间交替进行。

如图2所示，第一个模块使用规则的窗口划分策略，从左上角的像素开始，8×8特征映射均匀地划分为2个窗口，大小为4×4(M=4)。然后，下一个模块采用一个窗口配置，从前一层的窗口中，替换窗口像素。采用移位窗口划分方法，连续的Swin Transformer计算为 :

其中，和分别表示(S)的WMSA模块和MLP模块的输出特征；W-MSA和SW-MSA分别表示基于规则的窗口分区配置和移位的多头自注意力。移位窗口划分方法在上一层中引入了相邻的非重叠窗口之间的连接，在图像分类、目标检测和语义分割等方面都是有效的，如表4所示。

Effificient batch computation for shifted confifiguration 移位窗口分区的一个问题是，它将导致更多的窗口，从移位配置中的到，并且一些窗口将小于M×M。一个简单的解决方案是将较小的窗口填充到M×M的大小，并在计算注意力时屏蔽填充的值。当常规分区中的窗口数量很小时，例如2×2，使用这个简单的解决方案增加的计算量相当大（2×2→3×3，是原来的2.25倍）。在这里，我们提出了一种更有效的批处理计算方法，即向左上角的方向循环移动，如图4所示。在此转移之后，批处理窗口可能由几个在特征图中不相邻的子窗口组成，因此使用mask机制将自注意计算限制在每个子窗口内。通过循环位移，批处理窗口的数量保持在与常规窗口划分的数量相同，因此也是有效的。这种方法的低延迟如表5所示。

Relative position bias 在计算自我注意时，我们遵循[49,1,32,33]，在计算相似度中对每个头部包含一个相对位置偏差：

其中，为query, key矩阵和value矩阵；d为query/key维度，M2为窗口中的patch数。由于沿每个轴的相对位置在范围内[−M+1，M−1]，我们参数化了一个较小的偏置矩阵，B中的值取自Bˆ。

我们观察到，与没有这个偏差项或使用绝对位置embeding的同行相比，有显著的改进，如表4所示。进一步添加绝对位置embeding会略微降低性能，因此在我们的实现中没有采用它。

在预训练中学习到的相对位置偏差也可以通过双立方插值[20,63]来初始化一个具有不同窗口大小的微调模型。

精读

传统的Transformer的不足

传统的Transformer都是基于全局来计算注意力的，因此计算复杂度十分高。

本文改进

（1）Swin Transformer则将注意力的计算限制在每个窗口内，进而减少了计算量。

（2）主要区别是在原始计算Attention的公式中的Q,K时加入了相对位置编码。

（3）Self-attention in non-overlapped windows—非重叠窗口中的self-attention。

目的

更高效地建模

本文方法

在局部窗口内计算self-attention，窗口被安排以不重叠的方式均匀地分割图像。

计算复杂度

Shifted window partitioning in successive blocks—在连续块中移位窗口分区

目的

引入跨窗口连接，同时保持非重叠窗口的高效计算

本文方法

本文提出了一种移位窗口分区方法，该方法在连续Swin Transformer块中的两个分区配置之间交替进行。

计算公式

Efficient batch computation for shifted configuration—高效的批量计算移位配置

目的

为了减少移位窗口分割过程中产生更多的窗口，并避免窗口尺寸过小。

本文方法

向左上方循环移位。在这种移位之后，一个批处理窗口可以由特征图上几个不相邻的子窗口组成，通过循环移位，批处理窗口的数量保持与常规窗口划分相同。

Relative position bias—相对位置偏置

本文参数化了一个较小的偏差矩阵，但是呢，与没有该偏差项或使用绝对位置嵌入的同行相比，有显著的改进，像VIT那样在输入中进一步添加绝对位置嵌入会略微降低性能，因此在本文的实现中没有采用它。

3.3 Architecture Variants—结构变体

翻译

我们建立了我们的基本模型，称为Swin-B，该模型具有类似于ViTB/DeiT-B的模型大小和计算复杂度。我们还介绍了Swin-T、Swin-S和Swin-L，它们分别是模型大小和计算复杂度约为0.25×、0.5×和2×的版本。需要注意的是，Swin-T和Swin-S的复杂性分别与ResNet-50(DeiT-S)和ResNet-101相似。窗口大小默认设置为M=7。在所有实验中，每个head的query维度为d=32，每个MLP的扩展层为α=4。这些模型变体的架构超参数是：

• Swin-T: C = 96 , layer numbers = { 2 , 2 , 6 , 2 }
• Swin-S: C = 96 , layer numbers = { 2 , 2 , 18 , 2 }
• Swin-B: C = 128 , layer numbers = { 2 , 2 , 18 , 2 }
• Swin-L: C = 192 , layer numbers = { 2 , 2 , 18 , 2 }
C是第一阶段的隐藏层的通道数。表1列出了用于ImageNet图像分类的模型变量的模型大小、理论计算复杂度(FLOPs)和吞吐量。

精读

这些模型变量的体系结构超参数:

• Swin-T: C = 96 , layer numbers = { 2 , 2 , 6 , 2 }
• Swin-S: C = 96 , layer numbers = { 2 , 2 , 18 , 2 }
• Swin-B: C = 128 , layer numbers = { 2 , 2 , 18 , 2 }
• Swin-L: C = 192 , layer numbers = { 2 , 2 , 18 , 2 }

四、Experiments—实验

我们对ImageNet-1K图像分类[19]、COCO目标检测[43]和ADE20K语义分割[83]进行了实验。在下面，我们首先将提出的Swin Transformer架构与之前的三个技术进行比较。然后，我们消除了Swin Transformer的重要设计元素。

4.1 Image Classification on ImageNet-1K—在ImageNet-1K上进行图像分类

翻译

对于图像分类的设置，我们在ImageNet-1K[19]上对所提出的Swin Transformer进行了基准测试，它包含来自1000个类的1.28M训练图像和50K验证图像。报告了单一crop的最高精度。我们考虑了两种训练设置：

常规ImageNet-1K训练。这个设置主要遵循[63]的原则。我们使用一个AdamW[37]优化器为300个周期使用余弦衰减学习率调度器和20个周期的线性预热。使用的批处理大小为1024，初始学习率为0.001，权重衰减为0.05。我们在训练中包括了大多数[63]的增强和正则化策略，除了重复的增强[31]和EMA[45]，它们并没有提高性能。请注意，这与[63]相反，在[63]中，重复增强对稳定ViT的训练至关重要。
ImageNet-22K的预训练和ImageNet-1K的微调。我们还在更大的ImageNet-22K数据集上进行了预训练，其中包含1420万张图像和22K类。我们使用了一个AdamW优化器为90个epochs，使用一个线性衰减学习率调度器与5个epoch的线性热身。使用的批量大小为4096，初始学习率为0.001，权重衰减为0.01。在ImageNet-1K微调中，我们对模型训练为30个epoch，批大小为1024，恒定的学习速率为10−5，权重衰减为10−8。
Results with regular ImageNet-1K training 表1(a)显示了与其他骨干的比较，包括基于transformer的和基于convnet的，使用常规的ImageNet-1K训练。与之前最先进的基于transformer的架构，即DeiT[63]相比，Swin Transformer明显超过了类似的复杂架构：使用224**2输入的SwinT-T+1.5%（81.3%）（79.8%），使用224**2/384**2输入的Swin-B+1.5%/1.4%使用2242/3842输入（83.3%/84.5%）。

与最先进的ConvNets，即RegNet[48]和EffificientNet[58]相比，Swin Transformer实现了一个稍微更好的速度-精度权衡。需要注意的是，虽然RegNet[48]和EffificientNet[58]是通过彻底的架构搜索获得的，但所提出的Swin Transformer是由标准transformer改编而来的，具有很强的进一步改进潜力。

Results with ImageNet-22K pre-training 我们还在ImageNet-22K上对更大容量的Swin-B和Swin-L进行了预训练。对ImageNet-1K图像分类的微调结果如表1(b).所示对于Swin-B，ImageNet-22K预训练比ImageNet-1K预训练带来1.8%∼1.9%提升。与之前ImageNet-22K预训练的最佳结果相比，我们的模型实现了显著更好的速度-精度权衡：Swin-B获得了86.4%的top-1精度，比类似的推理吞吐量(84.7/85.9vs.图像/秒)，略低的FLOPs(47.0G/55.4G)高2.4%。较大的Swin-L模型达到87.3%的top-1精度，+比Swin-B模型高0.9%。

精读

在ImageNet-1K数据上分类性能及计算量比较如表1所示

• 表1a：在imagenet-1k上从头开始训练
• 表1b：首先在imagenet-22k上预训练，再1迁移到imagenet-1k上

常规ImageNet-1K训练

设置

优化器：AdamW
warm-up：20个epochs
epochs：300
batch-size：1024
初始学习率：0.001
权重衰减：0.05

结果：与之前最先进的基于transformer的架构，即DeiT[63]相比，Swin Transformer明显超过了类似的复杂架构。

ImageNet-22K的预训练和ImageNet-1K的微调

预训练设置

数据集：更大的ImageNet-22K数据集（含1420万张图像和22K类）
优化器：AdamW
warm-up：5个epochs
batch-size：1024
初始学习率：0.001
权重衰减：0.01

微调设置

epochs：30
batch-size：1024
恒定的学习速率：0.00001
权重衰减：0.00000001

结果：ImageNet-22K预训练比ImageNet-1K预训练带来1.8%∼1.9%提升。与之前ImageNet-22K预训练的最佳结果相比，本文的模型实现了显著更好的速度-精度权衡。

4.2 Object Detection on COCO—COCO数据集上的目标检测

翻译

Settings 在COCO2017上进行了对象检测和实例分割实验，其中包含118K训练、5K验证和20K测试开发图像。使用验证集进行了消融研究，并对测试开发报告了系统级比较。在消融研究中，我们考虑了四种典型的目标检测框架：Cascade Mask R-CNN [29,6]、ATSS[79]、RepPoints v2[12]和mmdetection[10]中的Sparse RCNN[56]。对于这四个框架，我们使用相同的设置：多尺度训练[8,56]（调整输入，这样短的一面在480和800之间，而长的一面最多1333），AdamW优化器（初始学习率0.0001，权重衰减0.05，和批大小16），和3x时间表（36时代）。对于系统级的比较，我们采用改进的HTC[9](记为HTC++)，包括初始[22]、更强的多尺度训练[7]、6x时间表(72个epoch)、soft-NMS[5]和ImageNet-22K预训练模型作为初始化。

我们将我们的Swin Transformer与标准的卷积网络进行比较，即ResNe(X)t，以及以前的Transformer网络，如DeiT。比较是通过只改变主干来进行的。请注意，虽然Swin Transformer和ResNe(X)t由于它们的层次特征图，直接适用于上述所有框架，但DeiT只产生单一的特征图分辨率，不能直接应用。为了公平的比较，我们遵循[81]，使用反卷积层构建DeiT的层次特征图。

Comparison to ResNe(X)t 表2(a)列出了Swin-T和ResNet-50在四个目标检测框架上的结果。与ResNet-50相比，我们的Swin-T 带来了一致的+3.4∼4.2boxAP收益，模型大小、流量和延迟略大。

表2(b)使用Swin Transformer比较了不同模型容量下的Swin transformer和ResNe(X)t。transformer实现了51.9boxAP和45.0maskAP的高检测精度，+3.6boxAP和+3.3maskAP显著高于ResNeXt 101-64x4d，具有相似的模型大小、流量和延迟。在使用改进的HTC框架的52.3的boxAP和46.0的mask AP的更高baseline上，+4.1的boxAP的增益也很高，+3.1的mask AP(见表2(c))。关于推理速度，虽然ResNe(X)t是由高度优化的Cudnn函数构建的，但我们的架构是用内置的PyTorch函数实现的，这些函数并不是都经过了很好的优化。一个彻底的核优化超出了本文的范围。

Comparison to DeiT 使用Cascade Mask R-CNN框架的DeiT-S的性能如表2(b).所示Swin-T的结果是+2.5boxAP和+2.3mask P高于DeiT-S，模型大小相似(86M vs.80M)，且显著高于推理速度(15.3FPSvs.10.4FPS)。DeiT的推理速度较低，主要是由于它对输入图像大小的二次复杂度。

Comparison to previous state-of-the-art 表2(c)将我们的最佳结果与以前最先进的模型进行了比较。我们的最佳模型在COCO测试开发集上达到了58.7boxAP和51.1maskAP，超过了之前+2.7boxAP（没有外部数据的Copy-paste[26]）和+2.6mask AP（检测器[46]）的最佳结果。

精读

目标检测和实例分割实验在COCO 2017上进行，其中包括118K训练、5K验证和20K测试开发图像。

表2a：比较Swin-T与ResNet50在四个检测框架下性能
表2b：使用Cascade Mask R-CNN检测框架，比较不同模型容量的Swin Transformer与ResNe(X)t性能
表2c：最好结果与之前SOTA进行对比

和ResNe(X)t相比

表2a表明Swin-T架构带来了的+3.4∼4.2 box AP，比ResNet-50更具优势，但模型尺寸、算力消耗、延迟都稍大一些。

表2b表明Swin Transformer和相似模型大小、算力和延迟的ResNeXt101-64x4d相比获得了+3.6 box AP and +3.3 mask AP的显著增益。

表2c表明ResNe(X)t是由高度优化的Cudnn函数构建的，但Swin-T体系结构是由内置的PyTorch函数实现的，这些函数并没有得到很好的优化。

和DeiT相比

表2b表明与模型尺寸相似（86M对80M）的DeiT-S相比，Swin-T的结果是+2.5box AP和+2.3mask AP，并且推理速度显著更高（15.3fps对10.4fps）。DeiT的推理速度较低主要是由于其对输入图像大小的二次复杂度。

和SOTA相比

表2c表明Swin-T的最佳模型在COCO测试开发上超过了之前的最佳结果+2.7 box AP和+2.6 mask AP。

4.3 Semantic Segmentation on ADE20K—在ADE20K上语义分割

翻译

Settings ADE20K[83]是一个被广泛使用的语义分割数据集，涵盖了150个语义类别。它总共有25K张图像，其中20K用于训练，2K用于验证，另外3K用于测试。我们利用mmseg[16]中的UperNet[69]作为其高效的基础框架。更多的细节见附录。

Results 表3列出了不同方法/主干对的mIoU、模型大小(#param)、FLOPs和FPS。从这些结果可以看出，Swin-S的+比DeiT-S高5.3mIoU（49.3比44.0）。+4.4mIoU高于ResNet-101，+2.4mIoU高于ResNeSt-101[78]。我们使用ImineNet-22K预训练的Swin-L模型在val集上达到53.5 mIoU，超过了之前+3.2mIoU的最佳模型(SETR[81]的50.3mIoU，具有更大的模型尺寸)。

精读

表3是以更小的模型实现了比之前的SOTA SETR更高的mIOU

结论：

在计算成本相似的情况下，Swin-S比DeiT-S，ResNet-101，ResNeSt-101都要高。
Swin框架带有ImageNet-22K预训练的Swin-L模型在val集合上实现了53.5 mIoU，超过了之前的最佳模型+3.2 mIoU。

4.4 Ablation Study—消融实验

翻译

在本节中，我们使用ImageNet-1K图像分类、COCO目标检测，Cascade Mask R-CNN和UperNet ADE20K语义分割，消除了提出的Swin Transformer中的重要设计元素。

Shifted windows 表4报告了在这三个任务上的移位窗口方法的消融情况。移位窗口划分的Swin-T在每个阶段比单个窗口划分上的性能在ImageNet-1K上的为+1.1%，COCO上的+2.8 boxAP/+2.2 maskAP和ADE20K上的+2.8mIoU。结果表明，使用移动的窗口在前几层的窗口之间建立连接是有效的。通过移位窗口产生的延迟开销也很小，如表5所示。

Relative position bias 表4显示了不同位置embeding方法的比较。那些没有位置编码和绝对位置embeding分别相比，Swin-T与相对位置偏差收益率+1.2%/+0.8%top-1精度在ImageNet-1K数据集上，+1.3/+1.5 boxAP +1.1/+1.3 mask AP在COCO数据集上，和+2.3/+2.9 mIoU在ADE20K数据集上,还需要注意的是，虽然包含绝对位置embeding提高了图像分类精度（+0.4%），但它损害了目标检测和语义分割(COCO的-0.2box/maskAP和ADE20K的-0.6mIoU)。

虽然最近的ViT/DeiT模型放弃翻译不变性在图像分类，尽管它长期以来一直被证明是至关重要的视觉建模，我们发现归纳偏差，鼓励某些翻译不变性仍然适合通用视觉建模，特别是预测任务密集的目标检测和语义分割。

Different self-attention methods 表5比较了不同的自注意计算方法和实现的真实速度。我们的循环实现比简单的填充更有硬件效率，特别是对于更深层次的阶段。总体而言，Swin-T、Swin-S和Swin-B的增长速度分别提高了13%、18%和18%。

在四个网络阶段，移位窗口方法上的自注意模块的初始/内核实现比滑动窗口的效率分别为40.8×/2.5×、20.2×/2.5×、9.3×/2.1×和7.6×/1.8×。总的来说，构建在移动窗口上的Swin transformer架构分别比建立在Swin-T、Swin-S和Swin-B上的变体快4.1/1.5、4.0/1.5、3.6/1.5倍。表6比较了它们在三个任务上的准确性，表明它们在视觉建模中的准确性相似。

与Performer[14]相比，这是最快的transformer架构之一（见[60]），提出了基于窗口的自我注意计算和整体双transformer架构略快（见表5），同时实现+2.3%的top-1精度相比Performer ImaneNet-1k使用Swin-T（见表6）。

精读

表4是在分类、检测、分割任务上进行的实验

结论：移位窗口操作和添加相对位置偏差是有效的。

表5是比较不同attention方法还有耗时情况

结论：shifted window和cycilc结合是高效的。

表6是使用不同的self-attention比较

结论：与速度最快的Transformer架构之一Performer相比，基于移位窗口的自注意计算和整体Swin Transformer架构速度稍快。

五、Conclusion—结论

翻译

本文提出了一种新的视觉tranformer Swin tranformer，它可以产生一种分层的特征表示方法，并且对输入图像的大小具有线性的计算复杂度。Swin tranformer在COCO目标检测和ADE20K语义分割方面取得了最先进的性能，明显超过了以往的最佳方法。我们希望Swin tranformer在各种视觉问题上的强大性能将鼓励视觉和语言信号的统一建模。

基于移动窗口的自注意作为Swin Transformer的一个关键元素，对视觉问题是有效的，并期待研究其在自然语言处理中的应用。

精读

本文提出了一种新的视觉Transformer主干网络。Swin-T结合了CNN的归纳偏置，基于局部窗口做注意力，构建了一种层次化的特征表示，并具有与输入图像大小呈线性计算复杂度，极大降低了计算量。

（1）基于局部窗口做注意力

（2）将层次性、局部性和平移不变性等先验引入Transformer网络结构设计

（3）关键部分是提出了Shift window移动窗口（W-MSA、SW-MSA），改进了ViT中忽略局部窗口之间相关性的问题。

（4）使用cyclic-shift 循环位移和mask机制，保证计算量不变，并忽略不相关部分的注意力权重

（5）加入了相对位置偏置B

（6）移动窗口和相对位置编码对分类任务提升效果不显著，对下游任务，分割检测等提升效果显著

你可能感兴趣的:(transformer,transformer,深度学习,人工智能,目标检测,计算机视觉)

谷歌准备斥资 230 亿收购网络安全初创公司 Wiz 网络研究观网络研究观谷歌
Alphabet正在就收购Wiz进行深入谈判，这将显著增强其安全能力。这将是谷歌母公司有史以来最大规模的收购。这是路透社根据匿名消息来源撰写的内容。目标收购金额为230亿美元，即211亿欧元。Wiz拥有实时检测和响应网络威胁的技术。通过实施人工智能，Wiz能够在短时间内吸引许多公司作为客户。Alphabet的收购目标定于2020年初。到2023年，Wiz的收入将达到3.5亿美元。当时，全球40%的
数学领域的跨时代进化与升级：从公理化到智能化的破茧之路夏末之花算法
作者：夏末之花|发布时间：2025-03-16|阅读量：10万+|点赞数：5.6万引言：数学的“破茧时刻”与文明跃迁人类历史上，数学的每一次重大突破都像一次“破茧时刻”，推动文明跨越式发展。从古希腊的几何公理化到牛顿的微积分，再到20世纪的计算机理论，数学始终是科学革命的基石。而在21世纪的今天，随着量子计算、人工智能、生物信息等技术的爆发，数学正迎来新一轮的进化与升级——从纯粹的逻辑工具，演变为
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
模型微调：让AI更懂你的魔法棒带上一无所知的我 pytorch 人工智能 python
模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。今天，我们就来深入探讨模型微调的技术细节，让你也能像魔法师一样，轻松驾驭AI模型！什么是模型微调？模型微调是指在预训练模型的基础上，通过少量的特定任务数据进行训练，使模型更好地适应新任务的技术。预训练模型通常是基于大规模数据集（如Ima
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出