没有难学的知识

Swin Transformer

文章目录

1.题目和作者
2.摘要
3.引言
4.结论
5.模型
- 5.1Patch Merging
6.基于移动窗口的自注意力
- 6.1计算复杂度对比
- 6.2移动窗口
7.实验

1.题目和作者

Swin Transformer论文pdf版
Swin Transformer论文网址
Swin Transformer代码

文章标题：Swin Transformer:Hierarchiacl Vision Transformer using Shifted Windows

Swin Transformer：用了移动窗口的层级式的Vision Transformer
Swin=Shift（首字母）+Windows（前三个字母）

作者来自Microsoft Research Asia

MSRA是研究的圣地，经常被誉为研究者的黄埔军校，从里面出来了一众大佬，而且产出了一系列非常有影响力的工作
比如大家耳熟能详的ResNet（单篇引用率已经超过10万），也是四位作者都在MSRA的时候完成的工作

2.摘要

这篇论文提出了一个新的Vision Transformer，叫做Swin Transformer。它可以被用来作为一个计算机视觉领域，一个通用的骨干网络。

因为Vit在结论中指出，ViT只是做了分类任务，把下游任务比如检测和分割，留给以后的人去探索了，所以说在ViT出来之后，大家虽然看到了Transformer在视觉领域的强大潜力，但是大家并不确定Transformer能不能把所有视觉的任务都做掉
所以Swin Transformer这篇论文的研究动机就是想来告诉大家使用Transformer没毛病，绝对能在方方面面上取代卷积神经网络，接下来大家都用Transformer就好了

但是直接把Transformer从NLP用到Vision是有一些挑战的，这个挑战主要来自两个方面，一个是尺度上的问题

比如我现在有一张街景的图片，里面有很多车和行人，里面的物体都大大小小的，这时候代表同样一个语义的词，比如说车或者是行人，他就有非常不同的尺寸，那这种现象在NLP就不会出现

另外一个挑战是图像的分辨率太大了

如果我们要以像素点作为基本单位的话，这个序列的长度就变得高不可攀，所以之前的工作的解决方案
方案一：用后续的特征图作为Transformer的输入
方案二：把图片打成patch，减少图片的分辨率
方案三：把图片画出一个个小窗口，然后在窗口里去做这个自注意力
所有的方案都是为了减少序列程度
基于这两个挑战，本篇论文的作者提出了hierachical Transformer

hierarchical Transformer的特征是通过一种移动窗口的方式学来的，移动窗口的好处，不仅带来了更大的效率

因为跟之前的工作一样，现在这个自注意力是在窗口内算的，所以这个序列的长度就大大降低了

同时通过shifting移动的这个操作，能够让相邻的两个窗口之间有了交互，所以上下层之间就可以有cross-window connection，

从而变相的达到了一种全局建模的能力

这种层级式结构的好处不仅非常灵活，可以提供各个尺度的特征信息，同时，因为这个自注意力是在小窗口之内计算的，所以计算复杂度是随着图像大小而线性增长的

而不是平方级增长
这也为作者之后提出的Swin V2铺平了道路，从而让他们可以在特别大的分辨率上去预训练这个模型
因为Swin Tranformer 像卷积神经网络一样有分层的结构，有了多尺度的特征，所以就很容易使用到下游的任务里

作者不光是在ImageNet-1K上做了实验，而且达到了非常好的准确度87.3
而且还在密集预测型任务上，比如物体检测，还有物体分割上取得了很好的成绩，比如在COCO上，AP达到了58.7，比之前最好的方法高了2.7个点，在语义分割ADE上，也达到了53.5的效果，比之前最好的方法高了3.2个点

这些数据集都是大家常刷的数据集

这种基于Transformer的模型，在视觉领域是非常有潜力的
对于这种MLP架构，用shift window的方法也能提升

3.引言

在视觉领域，卷积神经网络之前是主导地位，但是Transformer在NLP领域使用效果非常好，所以我们将Transformer用到视觉领域来

但是因为ViT已经做过这件事情了
所以Swin Transformer在第三段的开始，说明研究动机是想证明Transformer是可以用作一个通用的骨干网络，就是对所有视觉任务，不光是分类，在检测、分割视频上也都能取得很好的效果

作者先说了ViT，进行对比，Vision Transformer把图片打成patch

因为ViT里用的patch size是16*16的，16×就是16倍的下采样率，这也意味着，这里的每一个patch，自始至终代表的尺寸都是差不多的，它每一层的Transformer block都是16倍的下采样率，虽然它可以通过这种全局的自注意力操作，达到全局的建模能力，但是它对多尺寸特征的把握就会弱一些
对于视觉任务，尤其是这些下游任务，比如说检测和分割，多尺寸的特征是至关重要的
比如说对目标检测而言，运用最广的一个方法就是FPN(a feature pyramid network)，意思就是当有一个分层式的卷积神经网络之后，每一个卷积出来的那些特征，receptive field感受野是不一样的，能抓住物体不同尺度的特征，从而能够很好的处理这个物体不同尺寸的问题
对于物体分割任务来说，最常见的就是UNet，UNet为了处理物体不同尺寸，提出了skip connection这个方法，意思就是当一系列下采样做完之后，现在去做上采样，不光是从bottleneck里去拿特征，还从之前每次下采样完之后的东西里面去拿特征，这样就将那些高频率的这些图像细节又全都能恢复出来了
当然分割里常用的还有PspNet，还有DeepLab，这些工作里也有相应的处理多尺寸的方法，比如说使用空洞卷积，使用psp和aspp层
总之对于计算机视觉的这些下游任务，尤其是这些密集预测型的任务检测、分割，有多尺寸的特征是至关重要的

但是在ViT里，它处理的特征都是单一尺寸的，而且是low resolution

也就是说自始至终都是处理的16倍下采样率过后的特征，所以说它可能就不适合处理这种密集预测型的任务

同时对于ViT而言，它的自注意力始终是在最大的窗口上进行了，就是始终是在整图上进行的，所以它是一个全局建模，复杂度也是跟图像的尺寸进行平方倍的增长

Swin Transformer借鉴了很多卷积神经网络的设计理念，为了减少序列的长度，降低计算复杂度，Swin Transformer采取了小窗口之内的自注意力，而不是像ViT一样在整图上去算自注意力
这样只要窗口大小是稳定的，自注意力计算复杂度就是固定的，那整张图的计算复杂度就会跟这张图片的大小而成线性增长关系，就比如这个图片增大了 $x$ 倍，那窗口数量也就增大了 $x$ 倍，计算复杂度也是增加了 $x$ 倍
这个其实就是利用了卷积神经网络里的Locality的Inductive bias，利用这个局部性的先验知识，就是说同一个物体的不同部位或者语义相近的不同物体，还是大概率会出现在相连的地方，所以即使是在一个Local，一个小范围的窗口去算这个自注意力也是差不多够用的，全局去算自注意力，对于视觉任务来说其实是有点浪费资源的
另外一个挑战，如何去生成这个多尺寸的特征呢
卷积神经网络主要是有pooling池化操作，池化这个操作能够增大每一个卷积核能看到的感受野，从而使得每次池化过后的特征，抓住物体的不同尺寸
所以类似的Swin Transformer也提出了一个类似池化的操作，叫做patch merging，就是把相邻的小patch合成一个大patch，那这样合并出来的一个大patch，就能看到之前四个小patch看到的内容，感受野就增大了，同时也能抓住多尺寸的特征

Swin Transformer刚开始的下采样率是4倍，然后变成了8倍、16倍

一旦有了多尺寸的特征信息，有了4×、8×、16×的特征图，很自然的我们就可以将这些特征图输给一个FPN，从而就可以去做检测了
同样的道理，拥有多尺寸的特征图，也可以输给UNET，就可以去做分割了

所以这就是作者反复在论文里强调的，Swin Transformer是能够当做一个通用的骨干网络的，不光是能做这个图像的分类，还能做密集预测性的任务

作者在引言的第四段就开始讲Swin Transformer一个关键的设计，移动窗口的操作
如果在Transformer第L层，把这个输入或者说这个特征图分成这种小窗口的话，那就会有效的降低序列程度，从而减少计算复杂度

每一个灰色小patch就是最基本的元素单元
每一个红色的框是一个中型的计算单元，也就是一个窗口
在Swin Transformer里面每一个小窗口里面默认是有7×7=49个小patch，在这里只是画个示意图，主要来讲解shift操作时怎么完成的

假设4个红色窗口组合起来外面是蓝色的窗口，然后将这个蓝色的窗口整体像右下角平移两个，单位，就是先往下平移两个，再往右平移两个
如果按照原来的方式，就是没有shift，那么这些窗口之间是不重叠的
但是如果每次自注意力的操作都在这个小的窗口内进行了，那这个窗口里的patch，就永远无法注意到其他窗口里的patch信息，这就达不到使用Transformer的初衷了，因为Transformer的初衷就是更好的理解上下文
现在我们加上自注意力的操作，比如左边图的第一个红色窗口里的patch，本来只能与该窗口进行联系，而现在变成右边的新红色窗口之后，就可以跟其他窗口里的patch进行交互了
再配合上之后提出的patch merging，那合并到这个Transformer最后几层的时候，每一个patch本身的感受野就已经很大了，就已经能看到大部分图片了，然后再加上移动窗口的操作，现在它所谓的这种窗口内的局部注意力，其实也就变相的等于是一个全局的自注意力操作了，这样就是既省内存效果也好，所谓一石二鸟

引言第五段，作者展示了一下实验结果

引言最后一段，作者坚信一个CV和NLP之间大一统的框架是能够促进两个领域共同发展的

4.结论

作者强调了一下Swin Transformer在COCO和ADE20K上的效果非常好，远远超越了之前最好的方法，基于此，希望Swin Transformer能激发出更多更好的工作，尤其是在多模态方面

最关键的贡献是基于Shifted Window的自注意力，这个对很多视觉任务是非常有帮助的

但是如果这个Shifted Windows操作不能运用到NLP领域里，其实在模型大一统上这个论据就不是那么强了

所以作者说接下来他们的任务就是要将Shifted Windows用到NLP领域里

5.模型

作者就是先讲了卷积神经网络，然后又将自注意力是如何帮助卷积神经网络的，最后就是用Transformer来做骨干网络
假设ImageNet输入图片为224×224×3
第一步，将图片经过Patch Partition将图片大小变为56×56×48（224/4=56，4×4×3=18）
在该篇论文里，patch size是4×4，而不是像ViT那样16×16
接下来将向量的维度变成一个预先设置好的值 $C$ ，对于Swin Tiny这个网络来说，也就是这个图里画的网络总览图， $C$ =96
所以经历过Linear Embedding层之后，输入尺寸就变成了56×56×96，前面的56×56会被拉直成序列长度为3136的token，96就是每一个token的维度
接下来引入了基于窗口的自注意力（Swin Transformer Block）计算，每个窗口按照默认来说，都只有7×7=49个patch，所以说序列长度就只有49，解决了计算复杂度的问题
经过Swin Transformer Block尺寸是不变的

5.1Patch Merging

假设我们有一个张量，Patch Merging就是将临近的小patch合并成一个大patch（merging合并）
这样就可以起到下采样一个特征图的效果了

因为是下采样两倍，所以就是每隔一个点选一个，原来的一个张量，就会变成4个张量如，如上图，每隔一个点取一个，一开始取数字1，然后取数字2、3、4，这里的数字不是图像的值，而是对应的位置
如上图，假设原来张量的维度是 $H \times W \times C$ ，经过一次采样之后每个张量的大小是 $H /2 、 W /2$ ，我们再将4个张量，在 $C$ 这个维度上拼接起来，就变成了 $H /2 \times W /2 \times 4 C$
相当于用空间上的维度去换了更多的通道数，通过这个操作就将原来一个大的张量变小了，就类似于卷积神经网络里池化的操作
之后又用1×1的卷积核，将通道维数降下来变成 $2 C$
通过上述操作就能将原来一个大小为 $H \times W \times C$ 的张量，变成 $H /2 \times W /2 \times 2 C$ 的张量，空间大小减半，通道数乘2
所以再回到一开始的56×56×96，现在经过Patch Merging层，变成了28×28×192
经过Swin Transformer Block尺寸是不变的

第三和第四阶段都是同理
先做一个Patch Merging，再通过Swin Transformer Block
进一步降成了14×14×384,再进一步降成了7×7×768

将最后的7×7经过global average pooling（全局平均池化），拉直取平均值变成1了，原论文并没有画出来，因为Swin Transformer本义并不是只做分类的，还会去做检测和分割，所以只画了骨干网络的部分，没有去画最后的输出
如果最后是做分类，那么7×7×768就变成了1×768

6.基于移动窗口的自注意力

全局自注意力的计算会导致平方倍的复杂度

作者在论文中提到，去做窗口的自注意力机制，原来的图片会被平均分为一些没有重叠的窗口

如上图，我们将图像切成一些不重叠的方格，也就是橙黄色的，每一个方格就是一个窗口，并不是最小的计算单元
最小的计算单元是之前的patch
每个小方格是由7×7=49个patch组成的
所有的自注意力计算都是在这个7×7的小窗口里面完成的，所以序列长度永远都是49个
原来大的整体特征图的窗口数，每边是56/7=8，也就是8×8=64个窗口
所以我们会在64个窗口里分别去算自注意力

6.1计算复杂度对比

多头自注意力：
$\Omega(MSA)=4hwC^2+2(hw)^2C$

基于窗口自注意力：
$\Omega(W-MSA)=4hwC^2+2M^2hwC$
其中， $M$ 就是窗口的长度，也就是上述的7

先推导标准的多头自注意力：
如上图，比如现在有一个输入，自注意力会先将输入复制成3个向量，分别为 $q 、 k 、 v$ ，具体每个值是什么意思可以参考文章Transformer，也就是原来的输入，分别乘了三个系数矩阵
一旦得到query和key之后，就将两者相乘得到自注意力的矩阵，有了自注意力矩阵之后，再与value相乘，因为是多头自注意力，所以最后还有一个projection layer投射层，这个投射层就会把向量的维度投射到我们想要的那个维度
$h w \times C$ 乘三个 $C \times C$ 的系数矩阵得到三个 $h w \times C$ 的矩阵，计算复杂度为 $3hwC^2$
$q 的 h w \times C$ × $k 的 h w \times C$ = $h w \times h w$ ，计算复杂度为 $hw)^2C$
自注意力矩阵 $h w \times h w$ ，与 $v 的 h w \times C$ 相乘，计算复杂度也为 $hw)^2C$
最后投射层也就是 $h w \times C$ 乘 $C \times C$ 变成了 $h w \times C$ ，计算复杂度为 $hwC^2$
再推导基于窗口的自注意力：
同样是参考上图，也可以直接套用多头自注意力公式，只是 $h 、 w 、 C$ 发生了变化， $h 、 w$ 变成了 $m 、 m$ ，即每个窗口的长和宽
所以公式代入之后，就变成了 $4w^2C^2+2M^4C$ ，这个公式是在一个窗口里算多头自注意力
那么我们的窗口数是 $\frac h m × \frac w m$ 个，再乘上式等于 $4hwC^2+2M^2hwC$

6.2移动窗口

虽然解决了计算复杂度的问题，但是窗口和窗口之间没有了通信，这样就达不到全局建模了，于是就提出了移动窗口的方式

每次都要先做基于窗口的多头自注意力（W-MSA），再做一次基于移动窗口的多头自注意力(SW-MSA)，这样就达到了窗口和窗口之间的互相通信

这也是为什么Swin Transformer Block总是偶数，因为总需要上面两块连在一起

原来特征图上只有四个窗口，现在移动之后，变成了9个窗口
窗口数量增加了，窗口里每个元素大小也不一样

作者先引入cyclic shift（循环位移）操作

在得到9个窗口之后，进行cyclic shift（循环位移）操作
将上图的A、B、C移动到下面
在新的图像上将得到新的四宫格，移动之前和移动之后都是4个窗口，所以计算复杂度是不变的

但是新得到的四宫格里面的A、B、C是不一样跟灰色的做自注意力计算的，因为他们是从很远的地方人为移动过来的，所以并没有什么联系，

于是作者采用了掩码的方式

掩码操作之后，再采用一次循环位移，将A、B、C再还原回去，保持原来图片的相对位置是不变的，整体图片的语义信息也是不变的

如上图，每个窗口是7×7=49个patch，每个patch就是一个向量，再将窗口拉直
因为每次移位是窗口的一半，这里的窗口是7，也就是移动3
所以就有7×4=28个3号位元素，7×3=21个6号位元素
行就是向量的维度 $C$
将左边矩阵转置，相乘，左边矩阵第一行与右边矩阵第一列相乘，以此类推
作者设置了掩码的模板矩阵，将需要计算的矩阵设置为0，不需要的设置为负很大的数
将模板矩阵与相乘得到的矩阵进行相加，不需要的模块就会变成非常小的数，再经过 $so f t ma x$ 操作之后就变成0了
同理，其他模块也是一样的操作，进行矩阵相乘，结果如上图

7.实验

做了两个预训练
一个是在ImageNet-1K上做预训练
一个是在ImageNet-22K上做预训练

测试都是在ImageNet-1K的测试集上去做的

H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
动手学深度学习V2.0(Pytorch)——10.感知机（激活函数）吨吨不打野动手学深度学习pytorch pytorch 深度学习机器学习
文章目录1.感知机2.多层感知机2.1异或问题2.2单隐藏层2.3激活函数2.3.1logistics函数/sigmoid激活函数2.3.2tanh函数2.3.3sigmoid函数和tanh函数的异同/优缺点2.3.4relu2.4多类分类2.5多隐藏层3Q&A3.1神经网络中一层的定义是什么3.2感知机无法解决XOR问题，多层感知机虽然可以解决，但是还是被SVM替代是为什么?3.3不同任务的激活
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
NTIRE比赛：技术前沿、国内企业表现与计算机视觉未来展望 AndrewHZ 深度学习新浪潮计算机视觉人工智能深度学习调研报告算法 NTIRE 画质算法
一、NTIRE比赛概述：图像恢复与增强领域的全球竞技场1.1NTIRE的定位与历史NTIRE（NewTrendsinImageRestorationandEnhancement）是计算机视觉领域最具影响力的国际赛事之一，聚焦于图像恢复与增强技术的前沿探索。自2017年首次举办以来，NTIRE每年与计算机视觉顶会CVPR联合召开，成为学术界与工业界技术实力的重要展示平台。其竞赛内容涵盖图像超分辨率、
深度学习PyTorch之数据加载DataLoader @Mr_LiuYang 计算机视觉基础深度学习 pytorch 人工智能
深度学习pytorch之简单方法自定义9类卷积即插即用文章目录数据加载基础架构1、Dataset类详解2、DataLoader核心参数解析3、数据增强数据加载基础架构核心类关系图torch.utils.data├──Dataset(抽象基类)├──DataLoader(数据加载器)├──Sampler(采样策略)├──BatchSampler(批量采样)└──IterableDataset(流式数
仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播 KangkangLoveNLP 手撕系列 #transformer pytorch transformer 人工智能深度学习 python 机器学习
仅仅使用pytorch来手撕transformer架构(4)：解码器和解码器模块类的实现和向前传播仅仅使用pytorch来手撕transformer架构(1)：位置编码的类的实现和向前传播最适合小白入门的Transformer介绍仅仅使用pytorch来手撕transformer架构(2)：多头注意力MultiHeadAttention类的实现和向前传播仅仅使用pytorch来手撕transfor
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
【Hugging Face】transformers 库中 model 的常用方法和属性彬彬侠 Hugging Face model 模型的属性和方法 transformers Hugging Face python
HuggingFacetransformers库中model的常用方法和属性在transformers库中，model代表预训练的Transformer模型，可用于文本分类、问答、文本生成等任务。不同任务的model可能会有不同的方法和属性，但它们共享许多常见功能。1.model的常见属性在加载AutoModel或AutoModelForXXX后，可以使用以下属性：fromtransformers
【Hugging Face】transformers 库中 model.generate() 方法：自回归模型的文本生成方法彬彬侠 Hugging Face model.generate transformers Hugging Face 文本生成自回归模型 GPT LLAMA
HuggingFacemodel.generate方法model.generate是transformers库中的文本生成（TextGeneration）方法，适用于自回归模型（如GPT-2、T5、BART、LLAMA），用于生成文本、摘要、翻译、问答等。1.适用于哪些模型？generate适用于基于Transformer生成文本的模型，例如：GPT-2(AutoModelForCausalLM)
目标检测项目 sho_re 神经网络人工智能 pytorch 目标检测
·识别图片中有哪些物体并且找到物体的存在位置多任务：位置+类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰VOC数据集：PASCALVOC挑战赛(ThePASCALVisualObjectClasses)是一个世界级的计算机视觉挑战赛。4大类，20小类VOC2007：9963图片/24640目标VOC2012：23080图片/54900目标·COCO数据集：起源于微软2014
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录努力努力再努力呐 BERT bert 分类学习
一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification,BertTokenizer#设置具体包含config.json的目录，只支持绝对路径model_dir=r"models\bert-base-chinese"#model_dir=r
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

Swin Transformer

文章目录

1.题目和作者

2.摘要

3.引言

4.结论

5.模型

5.1Patch Merging

6.基于移动窗口的自注意力

6.1计算复杂度对比

6.2移动窗口

7.实验

你可能感兴趣的:(transformer,深度学习,计算机视觉)