叶舟

Swin Transformer: 使用滑动窗口的分层视觉transformer

论文地址：https://arxiv.org/abs/2103.14030

官方GitHub：https://github.com/microsoft/Swin-Transformer

0、摘要：

1、引言

2、相关工作

3、方法

3.1、总体架构

3.2、基于 Shifted Window的self-attention

3.3、架构变体

4、实验结果

5、结论

0、摘要：

本文提出了一个新的视觉transformer，命名为Swin Transformer，可以作为视觉任务的通用backbone。将transformer从NLP迁移到CV主要障碍来自两个领域之间的差异性，如：视觉实体的尺度变化多端、图像中的像素相比于文本中的单词具有更高的分辨率。为了解决这些差异，我们提出了一个分层transformer，其表示是使用滑动窗口计算而得的。滑窗机制将self-attention的计算限制在一个局部窗口中，同时允许跨窗口连接，从而带来了很高的效率。而分层结构可以灵活建模不同的尺度，且计算复杂度与图像尺寸线性相关。Swin Transformer的这些特性，使得它能够处理各种cv任务，如图像分类（ImageNet-1K上达到86.4的top-1准确率）、目标检测（COCO test-dev上达到58.7 box AP 和51.1 mask AP ）、语义分割（ADE20K val上达到53.5 mIoU），均超过了先前的模型，达到新的SOTA，这也表明了基于transformer的模型具备了作为视觉backbone的潜力。

1、引言

CV建模一直被CNN主导，从AlexNet及其在ImageNet分类挑战赛上革命性的性能开始，CNN架构通过更大的尺度、更多的连接、更复杂的卷积形式，变得越来越强大。随着CNN作为各种视觉任务的backbone，其架构不断改进，其性能不断提升，随之而来的是整个领域的进步。

与此同时，在NLP领域网络结构的进化采用了一种不同的方式，其当前的主流架构被transformer所主导。专为序列建模和转换任务而设计的Transformer以其对数据中的远程依赖关系建模而著称。其在NLP领域的巨大成功，使得研究人员开始研究它对计算机视觉的适应，最近在一些任务上展示了很有前途的结果，特别是图像分类和联合视觉语言建模。

在本文中，我们尝试扩展Transformer的能力，使其能够作为视觉任务的通用backbone，就像它在NLP中、CNN在CV中所扮演的角色那样。我们观察到，将transformer在NLP中的高性能迁移到视觉领域时一个巨大的挑战是两个领域之间的差异性。其中一个差异在于规模。不像语言翻译领域中将单词token作为基本的处理元素，视觉中的元素在规模上有很大的变化，在诸如目标检测之类的任务中，这是一个大问题。在已有的基于transformer的模型中，tokens都是固定的规模，这不适合视觉任务。另一个差异在于图像中的像素相比于文本中的单词具有更高的分辨率。很多视觉任务，如语义分割，需要在像素级别上进行密集预测，这对于transformer来说很难处理，因为其中的self-attention计算复杂度是与图像尺寸的平方相关的。为了克服这些问题，我们提出了一个通用的transformer backbone，称之为Swin Transformer，其构造了一个分层的feature maps，并具有与图像尺寸线性相关的计算复杂度。如图1（a）所示：Swin Transformer从一个小尺寸的patch开始，构造了一个分层表示，然后逐步合并相邻patch送入更深的Transformer层。有了这些层次化的feature maps，Swin Transformer可以方便地利用一些先进技术，如FPN、U-Net，进行密集预测。通过将self-attention计算限制在非重叠的窗口中，可以达到线性的计算复杂度。每个窗口中的patch数量是固定的，因此复杂度与图像大小成线性关系。这些优点，是的Swin Transformer适合作为视觉任务中的通用backbone，这与之前基于transformer的架构使用单一分辨率的feature maps且具有二次复杂度是不同的。

在Swin Transformer中一个关键的设计是在相邻的自注意力层间，分割窗口的“位移”，也即相邻两个层中，patch划分的窗口是不同的，如图2所示，这些移动窗口将上一层的窗口连接了起来，从而显著增强了建模能力。这种策略在实际的延迟方面也是高效的：所有的query patches共享同一个key set，这有利于内存的访问。相比之下，早期的一些基于滑窗的self-attention方法，其在普通硬件上的低延迟是由于不同的query像素具有不同key set。我们的实验表明，所提出的shifted window方法比sliding window方法具有更低的延时。

所提出的Swin Transformer在图像分类、目标检测、语义分割等任务上达到了超强的性能，在这三个任务上显著超过了ViT/DeiT、ResNe(X)t。其可以在COCO test-dev set达到58.7 box AP、51.1 mask AP，超过先前的SOTA方法；在ADE20K语义分割上，可以达到53.5 mIoU，超出SETR+3.2mIoU；其在ImageNet-1K 图像分类上也达到了86.4%的top-1准确率。

我们相信，一个跨计算机视觉和自然语言处理的统一架构将有利于这两个领域，因为它将促进视觉和文本信号的联合建模，并且可以更深入地共享这两个领域的建模知识。我们希望Swin Transformer在各种视觉问题上的出色表现，可以在社区中推动这种信念的深入，并鼓励视觉和语言信号的统一建模。

2、相关工作

CNN及其变体：

CNN是整个CV领域的标准网络模型。CNN已经出现几十年了，但直到AlexNet出现才成为主流。自此以后，更深、更高效的CNN网络结构被提出，进一步推进了CV领域的深度学习浪潮，如VGG、GoogleNet、ResNet、DenseNet、HRNet、EfficientNet等。除了网络架构上的改进，也有一些工作致力于研究一些特别的卷积层，如深度可分离卷积、可变性卷积。虽然CNN及其变体仍是CV应用的主流backbone，但我们强调了Transformer类的架构在视觉和语言之间统一建模的强大潜力。我们的工作在几个基本的视觉识别任务上取得了优异的成绩，希望它能够对建模方式做出一些改变。

基于self-attention的backbone：

受self-attention和transformer在NLP领域成功的激励，一些工作利用self-attention层部分或者全部替代了ResNet中的空间卷积层。在这些工作中，self-attention是在一个局部窗口中计算的，每个像素都参与优化，并且相比ResNet架构能够达到稍优的准确率/FLOPs

平衡。然而，其昂贵的访存导致了明显大于CNN的延迟。我们没有使用滑窗（sliding windows）机制，而是提出了在相邻层使用变换窗口（shift windows），这使得在一般硬件中的实现更为高效。

使用self-attention/Transformer补充CNN：

另一个研究路线是使用self-attention或者transformer来强化标准CNN。self-attention层可以通过提供编码长距离依赖或者异构交互的能力，来补足backbone或者head网络。最近，在Transformer中的Encoder-Decoder设计已被应用于目标检测和实例分割任务中。我们的工作探索了transformer对于基本视觉特征提取的适应性，属于这类工作的补充。

基于transformer的视觉backbone：

与我们工作最接近的是ViT及其后续变体。ViT开创性的在中等大小的图像patches上使用transformer，来进行图像分类。其在图像分类任务上，相比于传统CNN网络，达到了令人瞩目的速度-精度平衡。然而，ViT需要使用大规模的训练集（也即JFT-300M）才能达到不错的效果，所以DeiT引入了一些训练策略使得ViT在更小的ImageNet-1K数据集同样有效。尽管ViT在图像分类上的效果令人鼓舞，但它的架构其并不适合作为密集预测任务的通用backbone，且当输入图像分辨率较高时，其计算复杂度平方增加。也有几项工作使用ViT进行密集预测任务，如目标检测、语义分割，这些工作直接对ViT的feature maps进行上采样或者反卷积，不过其性能都比较差。与我们的工作同时进行的，还有对ViT进行修改以进行更好的图像分类。我们发现，所提出的Swin Transformer相比这些方法，能够在图像分类上达到最好的速度-精度平衡，尽管Swin Transformer更关注的是通用性能。另一项同时进行的工作探索了一个相似的思路：在transformer上构造多分辨率的feature maps。其计算复杂度仍是图像大小的二次方，而我们的是线性，且是已被证实有利于视觉建模的局部操作。我们的方法既高效又有效，在COCO目标检测和ADE20K语义分割上均达到了SOTA。

3、方法

3.1、总体架构

Swin Transformer的整体架构如图3所示，这是一个小的版本（Swin-T）。其首先像ViT那样利用一个patch划分模块将一张输入的RGB图像分为多个patches，每个patch作为一个“token”，其特征视为原始图像的一部分。在我们的实现中，patch的大小设为4*4，因此每个patch的维度是4*4*3=48。然后使用一个线性嵌入层将这个原始值的特征投影到任意维度（记为C）。

这些patch token然后被送入几个带有修改了的self-attention运算（Swin Transformer块）的Transformer块，这些Transformer块保持了token的数量（ $\frac{H}{4}\times \frac{W}{4}$ ），并与线性嵌入层一起，形成“Stage 1”。

为了生成层次化的表示，随着网络变深，通过patch合并层来减少token的数量。第一个patch合并层连接了一组2*2的相邻patches，并应用了一个4C维度的线性层。这使得token的数量减少了2*2=4（2*分辨率下采样）倍数，输出的通道维度为2C。然后使用Swin Transformer块进行特征转换，分辨率维持在 $\frac{H}{8}\times \frac{W}{8}$ 上。这个第一次进行patches合并和特征转换的块命名为“Stage 2”。该过程重复两次，分别命名为“Stage 3”和“Stage 4”，输出分辨率分别为 $\frac{H}{8}\times \frac{W}{8}$ 、 $\frac{H}{16}\times \frac{W}{16}$ 。这些stages共同产生了一个层次化的表示，与经典的CNN网络，如VGG、ResNet等网络的feature maps分辨率一样。因此，所提出的这种架构可以方便地在多种视觉任务上替换已有方法中的backbone。

Swin Transformer block：Swin Transformer构建时，将标准的多头self-attention（MSA）替换为基于shifted Windows（于3.2节描述）的Transformer块，而其他模块保持不变。如图3（b）所示，一个Swin Transformer块由一个基于 shifted window的MSA模块、一个2层的中间带有GELU非线性激活函数的MLP组成。在每个MSA和MLP之前，还应用了一个层归一化（LN），并在每个模块之后都应用了一个残差连接。

3.2、基于 Shifted Window的self-attention

在标准的transformer及其改进版中，都执行了全局self-attention，也即一个token和所有其他token之间的关系都被计算了。这种全局计算导致了与token个数二次相关的复杂度，从而使其不适用于那些需要大量token来进行密集预测或者生成一个高分辨率图像的视觉任务。

在非重叠窗口中的self-attention：

为了高效建模，我们提出在局部窗口内执行self-attention。所述窗口均匀地、非重叠的分布在整个图像上。假定每个窗口包含了M*M个patch，全局MSA模块和基于窗口的MSA模块（一个图像分为h*w个patches）的计算复杂度分别表示为：

$\begin{array}{l} \Omega(\mathrm{MSA})=4 h w C^{2}+2(h w)^{2} C \\ \Omega(\mathrm{W}-\mathrm{MSA})=4 h w C^{2}+2 M^{2} h w C \end{array}$

前者是hw的二次方，后者当M固定时（默认为7）则为线性。对于一个较大的hw，全局self-attention计算通常过于昂贵，而基于窗口的则相对来说比较廉价。

在连续块之间的Shifted window划分：

基于窗口的self-attention模块缺少了跨窗口的连接，这限制了建模能力。为了在保持非重叠窗口的高效计算的同时引入跨窗口的连接，我们提出了一个shifted window划分方法，在连续的Swin Transformer块间交替进行两种划分配置。

如图2所示，第一个模块从左上角的像素开始使用了一种常规的窗口划分策略，一个8*8的feature map被分为2*2的窗口，每个窗口的大小为4*4（M=4）。然后，下一个模块使用了一种与上个模块不同的窗口配置，使用 $\left\lfloor\frac{M}{2}\right\rfloor,\left\lfloor\frac{M}{2}\right\rfloor$ 的窗口替换原来的窗口，也即图2右图。

使用了这种Shifted window的划分策略后，则连续的Swin Transformer块的计算可表示为：

$\begin{array}{l} \hat{\mathbf{z}}^{l}=\mathrm{W}-\operatorname{MSA}\left(\mathrm{LN}\left(\mathbf{z}^{l-1}\right)\right)+\mathbf{z}^{l-1} \\ \mathbf{z}^{l}=\operatorname{MLP}\left(\mathrm{LN}\left(\hat{\mathbf{z}}^{l}\right)\right)+\hat{\mathbf{z}}^{l} \\ \hat{\mathbf{z}}^{l+1}=\mathrm{SW}-\operatorname{MSA}\left(\mathrm{LN}\left(\mathbf{z}^{l}\right)\right)+\mathbf{z}^{l} \\ \mathbf{z}^{l+1}=\mathrm{MLP}\left(\mathrm{LN}\left(\hat{\mathbf{z}}^{l+1}\right)\right)+\hat{\mathbf{z}}^{l+1} \end{array}$

其中， $\hat z^l$ 和分别表示（S）W-MSA和MLP模块的输出；W-MSA和SW-MSA分别表示使用常规窗口划分的MSA（也即图2左图）、使用Shifted Window划分方法的MSA（也即图2右图）。

Shifted Window划分方法对上层的相邻非重叠窗口做了连接，且发现这种做法对图像分类、目标检测、语义分割均有效。

针对shifted配置的高效批计算：

当使用shifted window进行划分时，将会导致一个问题：会产生更多窗口，从 $\left\lceil\frac{h}{M}\right\rceil \times\left\lceil\frac{w}{M}\right\rceil$ 到 $\left(\left\lceil\frac{h}{M}\right\rceil+1\right) \times \left(\left\lceil\frac{w}{M}\right\rceil+1\right)$ ，以及一些可能会小于M*M的窗口（为了使窗口能够被feature map的大小整除，可能会在右下角进行padding）。一个朴素的解决方案是：将更小的窗口padding到M*M，并在计算注意力时mask掉这些padding的值。当常规划分方法中窗口个数比较少时，比如2*2，这种朴素方法所增加的计算量是相当大的（2*2->3*3，增大了2.25倍）。在这里，我们提出了一个更高效批量计算方法，通过循环转移（cyclic shift）的方法，把原来的shifted 配置的窗口变为常规划分的窗口，如图4所示：

经过转换后的窗口就可能由几个不相邻的feature map组成，因此后续使用masking机制将self-attention计算限制在各自的子窗口内。如此一来，窗口的个数就与常规划分方式一致了，也因此同样高效。

相对位置偏差：

在计算self-attention时，我们按照已有的做法，在每个head计算相似性过程中加入了相对位置偏差 $B \in \mathbb R^{M^2 \times M^2}$ ：

$\text { Attention }(Q, K, V)=\operatorname{SoftMax}\left(Q K^{T} / \sqrt{d}+B\right) V$

其中， $Q, K, V \in \mathbb{R}^{M^{2} \times d}$ 是query、key、value矩阵；d是query/key的维度，是一个窗口中patches的个数。由于各轴上的相对位置在[−M +1,M−1]范围内，我们将一个更小尺寸的偏移矩阵 $\hat{B} \in \mathbb{R}^{(2 M-1) \times(2 M-1)}$ 进行参数化，且的值来自于 $\hat B$ 。

我们观察到，使用了相对位置偏置后，相比没有使用或者使用了绝对位置嵌入的项，具有显著的提升。而进一步添加绝对位置嵌入，性能会有所下降，所以我们没有采用。

在预训练阶段学习到的相对位置偏置也可以通过使用双三次插值来对不同窗口大小的模型在微调时初始化。

3.3、架构变体

我们构造的基本模型为Swin-B，其模型大小及计算复杂度与ViT-B和DeiT-B相当。我们同时也构造了Swin-T、Swin-S以及Swin-L，这些模型是模型大小及计算复杂度分别为0.25x、0.5x和2x倍的版本。注意，Swin-T和Swin-S的复杂度分别相当于ResNet-50（DeiT-S）和ResNet-101。窗口大小默认设为M=7；在所有实验中，每个head的query维度设为d=32，每个MLP的膨胀层均为 $\alpha=4$ 。各模型的架构超参分别为：

Swin-T: C = 96, layer numbers = {2,2,6,2}
Swin-S: C = 96, layer numbers ={2,2,18,2}
Swin-B: C = 128, layer numbers ={2,2,18,2}
Swin-L: C = 192, layer numbers ={2,2,18,2}

其中，C是第一阶段隐藏层的通道数。模型大小、理论上的计算复杂度（FLOPs），以及在ImageNet上模型的吞吐量见表1.

4、实验结果

5、结论

本文提出的Swin Transformer主要有两个特点：feature map的层次化表示、线性计算复杂度。所提出的模型能够在COCO目标检测、ADE20K语义分割上达到新的SOTA。

力扣SQL题记录（持续） Dxecozy leetcode sql
此贴用于个人写SQL题记录，主要是用于记录新的知识和一些个人觉得的难题思路，便于复习目录Leetcode高频SQL50题基本题基本条件筛选多表连接新知识CHAR_LENGTH()函数的使用，用于计算字符长度Leetcode高频SQL50题基本题基本条件筛选1757.可回收且低脂的产品584.寻找用户推荐人595.大的国家1148.文章浏览I多表连接1378.使用唯一标识码替换员工ID新知识CHAR
【设计模式】建造者模式浅慕Antonio 设计模式设计模式建造者模式 c++
三、建造者模式3.3建造者模式建造者(Builder)模式也称构建器模式、构建者模式或生成器模式，同工厂模式或原型模式一样，也是一种创建型模式。建造者模式比较复杂，不太常用，但这并不表示不需要了解和掌握该模式。建造者模式通常用来创建一个比较复杂的对象(这也是建造者模式本身比较复杂的主要原因),该对象的构建一般是需要按一定顺序分步骤进行的。例如，建造一座房子(无论是平房、别墅还是高楼),通常都需要按
图片压缩及水印添加概述华为云微认证大嘴巴子华为网络技术华为华为云网络
一、图片压缩和水印添加概述（1）为更好地传输，存储和辨识数据；使用压缩降低图片大小，节约了成本；图片压缩：简单易用；；图片压缩软件：功能单一；网页在线图片压缩；自设图片压缩代码：需要变成基础；使用云服务批量压缩：适合批量处理，可结合自设代码；（2）水印：logo增加辨识，盖章表示版权；附加信息，可增加了地点等信息；二、函数工作流简介（1）是华为云提供的一款无服务器计算服务，它包含了函数和工作流两个
计算机网络进化论：从比特流到量子通信的深层解构 ox0080 #北漂+滴滴出行 VIP 激励网络计算机网络
第一章物理媒介与链路层（1960-1970）1.1比特流物理编码//曼彻斯特编码实现vectormanchester_encode(uint8_tbyte){vectorbits;for(inti=7;i>=0;--i){boolbit=(byte>>i)&1;bits.push_back(bit);//前半周期bits.push_back(!bit);//后半周期}returnbits;}物理层
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
力扣算法Hot100——75. 颜色分类飞奔的马里奥算法 leetcode java
解法1：当然可以冒泡排序，时间复杂度O(n2n^2n2)解法2：单指针循环两次，第一次循环将所有的0交换到前面；第二次循环将所有的1交换到0的后面classSolution{publicvoidsortColorsBySinglePointer(int[]nums){intzeroCnt=0,p=0;for(inti=0;i
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
图论并查集小结 _C9 并查集
这周学习了并查集的有关内容，简单说一下并查集并查集主要用于处理一些不相交集合的合并问题。。使用并查集时，第一步会存在一组不相交的动态集合，一般都会使用一个整数表示集合中的一个元素。每个集合可能包含一个或多个元素，并选出集合中的某个元素作为代表。每个集合中具体包含了哪些元素是不关心的，具体选择哪个元素作为代表一般也是不关心的。我们关心的是，对于给定的元素，可以很快的找到这个元素所在的集合（的代表），
机器视觉工程师必须知道读码器如何选型视觉人机器视觉杂说数码相机 3d 人工智能 c#
一、明确核心需求应用场景工业场景（产线、仓储）：需高防护等级（IP65+）、抗震动/冲击、宽温工作（-20℃~50℃）。商业场景（零售、物流）：注重扫描速度、多码兼容性（一维/二维码混合）。移动场景（手持设备、AGV）：选择无线连接（蓝牙/Wi-Fi）、轻便设计。特殊环境（高粉尘、强光）：需配备强光源补偿、高帧率图像传感器。码的类型一维码：传统激光扫描器（成本低）或线性图像式扫描器（破损码容错）。
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
蓝桥杯练习-3.17 梨绘小棠蓝桥杯贪心算法 c++
蓝桥杯练习-3.17代码练习•旅行家的预算-贪心问题描述一个旅行家想驾驶汽车以最少的费用从一个城市到另一个城市（假设出发时油箱是空的）。给定两个城市之间的距离D1、汽车油箱的容量C（以升为单位）、每升汽油能行驶的距离D2、出发点每升汽油价格P和沿途油站数N（N可以为零），油站i离出发点的距离Di、每升汽油价格Pi（i=1，2，……N）。计算结果四舍五入至小数点后两位。如果无法到达目的地，则输出“N
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
机器视觉中图像的腐蚀和膨胀是什么意思？它能用来做什么？ yuanpan 机器学习人工智能计算机视觉图像处理
腐蚀（Erosion）和膨胀（Dilation）是两种基本的形态学操作，通常用于二值图像（黑白图像）的处理。它们是形态学图像处理的基础，广泛应用于图像分割、边缘检测、噪声去除等任务。1.腐蚀（Erosion）腐蚀操作通过对图像中的前景区域（通常为白色像素）进行“收缩”来去除边界上的像素。具体来说，腐蚀操作使用一个结构元素（通常是一个小的矩阵或核）在图像上滑动，只有当结构元素完全覆盖前景区域时，中心
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
Tree of Thought Prompting（思维树提示）大数据追光猿大模型人工智能大数据深度学习语言模型计算机视觉
TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。与传统的线性提示方法不同，思维树提示将问题分解为多个可能的推理路径，并以树状结构探索这些路径，从而找到最优解或生成更高质量的结果。这种方法特别适用于需要多步推理的任务，例如数学问题求解、逻辑推理、规划和创造性写作等场景。它结合了
【Leetcode】11. 盛最多水的容器 Leuanghing leetcode 算法 python
一、题目描述给定一个长度为n的整数数组height。有n条垂线，第i条线的两个端点是(i,0)和(i,height[i])。找出其中的两条线，使得它们与x轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。示例1：输入：[1,8,6,2,5,4,8,3,7]输出：49解释：图中垂直线代表输入数组[1,8,6,2,5,4,8,3,7]。在此情况下，容器能够容纳水（表示
【Leetcode】12. 整数转罗马数字 Leuanghing leetcode 算法 python
一、题目描述七个不同的符号代表罗马数字，其值如下：罗马数字是通过添加从最高到最低的小数位值的转换而形成的。将小数位值转换为罗马数字有以下规则：如果该值不是以4或9开头，请选择可以从输入中减去的最大值的符号，将该符号附加到结果，减去其值，然后将其余部分转换为罗马数字。如果该值以4或9开头，使用减法形式，表示从以下符号中减去一个符号，例如4是5(V)减1(I):IV，9是10(X)减1(I)：IX。仅
halcon里3d平面度检测程序_激光三角测量法在工业视觉检测上的应用 jiago 王佳东fr
点击上方“3D视觉工坊”，选择“星标”干货第一时间送达激光三角测量法，是工业视觉领域较为常用也是比较容易理解的一种3D检测算法。本文主要从应用层次来阐述，包括相机和激光选型、搭接方式的优劣点分析、软件开发过程中的注意事项等。1.原理及演示将一条单线细激光光线投射到物体表面，由于物体表面高度发生变化，使得激光线发生了弯曲，根据这个线的变形，可以计算出精确的物体表面三维轮廓。如下图所示，基本组成结构有
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
热点研究 | OpenAI 重磅发布 Agents SDK，人人都能手搓 Manus? Ai野生菌技术面 php 开发语言 manus openai agent
3月12日，OpenAI正式发布了OpenAIAgentsSDK，这一重要发布不仅为开发者提供了强大的工具，更预示着AIAgent技术即将进入快速发展期。这些工具为开发者提供更强大功能，使代理能够独立执行复杂任务，如搜索网络、处理文件和自动化计算机操作。ResponsesAPI同步发布，为开发者提供了构建自定义AIAgent的能力，能够执行网络搜索、文件检索等任务。这套新工具和API旨在赋能开发者
Ada语言的数据结构与算法尤宸翎包罗万象 golang 开发语言后端
Ada语言的数据结构与算法引言在计算机科学的领域里，数据结构与算法是核心的组成部分，围绕着如何高效地存储和处理数据。这些概念不仅是程序设计的重要基础，也是提高程序性能的关键。Ada是一种强类型、结构化的编程语言，早在20世纪80年代就被设计用于军用和实时系统。由于其高可靠性和可维护性，Ada逐渐在航空航天、军事和其他需要高安全性的领域获得了广泛应用。本文将探讨Ada语言中的数据结构和算法，包括常见
Halcon 和 opencv比有什么区别与优劣 yuanpan opencv 人工智能计算机视觉
Halcon和OpenCV都是机器视觉领域的重要工具，但它们的设计目标、功能特点和适用场景有所不同。以下是两者的详细对比：1.定位与目标用户Halcon：定位：商业机器视觉软件，专注于工业应用。目标用户：工业自动化、质量控制、机器人引导等领域的专业开发者。OpenCV：定位：开源计算机视觉库，适用于通用图像处理和计算机视觉任务。目标用户：学术研究、教育、初创公司以及需要低成本解决方案的开发者。2.
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
单片机中断系统设计教程 kkchenjj STM32编程等单片机编程单片机嵌入式硬件
单片机中断系统设计教程单片机中断系统概述中断的基本概念中断（Interrupt）是计算机系统中一种重要的机制，它允许外部设备或内部硬件在CPU执行程序的任意时刻请求CPU暂停当前任务，转而处理紧急或高优先级的任务。在单片机中，中断机制使得单片机能够及时响应外部事件，如按键按下、传感器数据变化等，从而提高系统的实时性和效率。工作原理中断系统通常包括中断源、中断请求、中断响应和中断服务程序。当中断源产
python pandas 读取excel单元门公式值_Python pandas对excel的操作实现示例 weixin_39585761 python pandas 读取excel单元门公式值
最近经常看到各平台里都有Python的广告，都是对excel的操作，这里明哥收集整理了一下pandas对excel的操作方法和使用过程。本篇介绍pandas的DataFrame对列(Column)的处理方法。示例数据请通过明哥的gitee进行下载。增加计算列pandas的DataFrame，每一行或每一列都是一个序列(Series)。比如：importpandasaspddf1=pd.read_e
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力伶俜Monster Threejs webgl 前端 3d threejs cannon.js
简介Cannon.js是一个基于JavaScript的物理引擎，它可以在浏览器中模拟物理效果。它支持碰撞检测、刚体动力学、约束等物理效果，可以用于创建逼真的物理场景和交互。参考文档官方示例原理Cannon.js使用了欧拉角来表示物体的旋转，而不是四元数。这使得它在处理旋转时更加直观和易于理解。Cannon.js还支持多种碰撞检测算法，包括离散碰撞检测和连续碰撞检测。Cannon.js还支持多种约束
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

Swin Transformer: 使用滑动窗口的分层视觉transformer

0、摘要：

1、引言

2、相关工作

3、方法

3.1、总体架构

3.2、基于 Shifted Window的self-attention

3.3、架构变体

4、实验结果

5、结论

你可能感兴趣的:(DeepLearning,论文笔记,SwinTransformer,分层表示,线性计算复杂度,视觉Transformer)