weixin_42653320

2021：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

摘要

本文提出一种新的视觉Transformer----Swin Transformer，它可以成为计算机视觉的通用主干。从语言到视觉采用Transformer的挑战来自于这两个领域之间的差异，比如视觉实体的规模变化很大，以及图像中像素比文本中单词的高分辨率。为解决这些差异，我们提出了一个分层Transformer，其表示是由移动窗口计算的。移动的窗口方案将自注意力计算限制在非重叠的局部窗口上，同时允许跨窗口连接，从而提高了效率。这种层次结构具有在不同尺度上建模的灵活性，并且对图像大小具有线性的计算复杂度。Swin Transformer的品质使其兼容广泛的视觉任务，包括图像分类（在ImageNet-1K上top-1的准确率87.3%）和密集的预测任务，如目标检测（在COCO test-dev上58.7 box AP和51.1 mask AP）和语义分割（在ADE20K val上53.5mIoU）。它的性能大大超过了之前的先进技术，在COCO上+2.7 box AP和+2.6 mask AP，在ADE20K上+3.2mIoU，显示了基于Transformer的模型作为视觉主干的潜力。分层设计和移动窗口也被证明对MLP架构是有益的。

一、介绍

随着CNNs的发展，架构已经发展的更大规模、更广泛的连接、以及更复杂的卷积形式。Transformer为序列建模和转导任务而设计，以其对数据中的长期依赖进行建模而闻名。

本文中，我们试图扩大Transformer的适用性，使其可以作为计算机视觉的通用主干。将其在语言领域的高性能转移到视觉领域的重大挑战可以用两种模态之间的差异来解释：其一是规模的差异，与在语言Transformer中作为处理的基本元素的单词标记不同，视觉元素在规模上可以有很大的变化，这是一个在对象检测等任务中引起注意的问题。在现有的基于Transformer模型中，标记都是固定尺寸的，不适合这些视觉应用。另一个差异是图像中的像素分辨率比文本中的文字要高得多。存在很多视觉任务中，如语义分割需要像素级进行密集预测，这对于高分辨率图像上的Transformer是难以处理的，因为其自注意力的计算复杂度与图像大小是二次的。为克服这些问题，我们提出了一种通用的Transformer主干--Swin Transformer，构造层次特征图，并对图像大小具有线性计算复杂度。如图1所示，Swin Transformer从小的补丁开始，在更深的Transformer层中逐步合并相邻的补丁，构建一个层次表示。有这些层次的特征图，Swin Transformer模型可以方便地利用先进的技术进行密集预测，如特征金字塔网络(FPN)或U-Net。线性计算复杂度是通过在分割图像（红色轮廓）的非重叠窗口内局部计算自注意力来实现的。每个窗口的补丁数是固定的，因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干，而以前基于Transforemr的架构，它产生单一分辨率的特征图，具有二次复杂度。

Swin Transformer的一个关键设计元素是它在连续的自注意力层之间有窗口分区的偏移，如图2所示。移动后的窗口连接了前一层的窗口，提供了它们之间的连接，显著提高了建模能力（表4）。这种策略对于现实世界的延迟也很有效：窗口中的所有查询补丁共享相同的key集，这有助于硬件中的内存访问。相反，早期基于滑动窗口的自注意力方法由于不同查询像素的key集不同，在一般硬件上存在较低的延迟。我们的实验表明，所提出的移动窗口方法比滑动窗口方法有更低的延迟，但在建模能力上是类似的（表5和表6）。移动窗口方法也被证明对all-MLP架构是有效的。

提出的Swin Transformer在图像分类、目标检测和语义分割等识别任务上取得了较好的性能，它在三个任务上显著优于ViT/DeiT和ResNe(X)t模型，并且在三个任务具有相似的延迟。

我们相信，跨计算机视觉和自然语言处理的统一架构可以有利于这两个领域，因为它可以促进视觉和文本信号的联合建模，而来自这两个领域的建模知识可以更深入地共享。我们希望Swin Transformer在各种视觉问题上的出色表现能够在社区中加深这种信念，并鼓励视觉和语言信号的统一建模。

二、相关工作

CNN和变体 从AlexNet引入起，CNN成为计算机视觉的主流，从那时起，更深、更有效的卷积神经结构被提出来进一步推动计算机视觉中的深度学习，如VGG、GoogleNet、ResNet、DenseNet、HRNet、EfficientNet。还有很多改进个体卷积层的工作，如深度卷积和可变形卷积。我们强调了类似Transformer结构在视觉和语言之间的统一建模方面的巨大潜力。

基于自注意力的主干结构 受到自注意力层和Transformer架构在NLP领域的启发，一些采用自注意力来取代流行的ResNet中的部分或全部空间卷积层。这些工作中，自注意力是在每个像素的局部窗口内计算的，以加快优化，且比对应的ResNet架构获得了略微更好的精度/FLOPs权衡。然而，它们昂贵的内存访问导致它们的实际延迟明显大于卷积网络[33]。我们建议使用滑动窗口，我们建议在连续层之间移动窗口，这允许在一般硬件中更有效地实现。

自注意力/Transformers来补充CNNs 自注意力层可以通过编码远程依赖或异构交互的能力来补充主干或头部网络。近年来，Transformer中的编码-解码器设计已被应用于目标检测和实例分割任务。我们的工作探索了改编Transformer的基本视觉特征提取。

基于视觉主干的Transformer 以前的工作ViT直接将Transformer架构应用于不重叠的中型图像补丁上进行图像分类。与卷积网络相比，它在图像分类上取得了令人印象深刻的速度-精度权衡。然而，ViT需要大规模的训练数据集(如JFT-300M)才能表现良好，DeiT引入几种训练策略，使ViT也能够有效地使用较小的ImageNet-1K数据集。ViT在图像分类上的结果是令人鼓舞的，但其架构不适合作为在密集视觉任务的通用主干网络，或输入图像分辨率高时，由于其低分辨率的特征图和图像大小二次增加复杂度。目前已有一些研究将ViT模型通过直接上采样或反卷积应用于目标检测和语义分割的密集视觉任务，但[2,81]性能相对较低。与我们的工作同时，有一些修改了ViT架构[72,15,28]，以更好的图像分类。根据实验，我们发现我们的Swin Transformer架构在这些图像分类方法中实现了最佳的速度-精度权衡，尽管我们的工作集中于通用性能，而不是特别的分类。另一个同时进行的工作是，[66]探索了一个类似的思路，即在Transformer上构建多分辨率的特征图。它的复杂度仍然是图像大小的二次型，而我们的复杂性是线性的，并且也在局部工作，这已被证明有利于建模视觉信号[36,25,41]的高相关性。我们的方法既高效又有效，在COCO目标检测和ADE20K语义分割上都实现了最先进的准确性。

三、方法

3.1 整体架构

如图3，论述了小版本，首先通过一个补丁分割模块（如ViT）将一个输入的RGB图像分割成不重叠的补丁，每个补丁被视为一个标记，其特征被设置为原始像素RGB值的连接。在我们的实现中，我们使用4×4的补丁大小，因此每个补丁的特征维度是4×4×3=48。在这个原始值特征上应用一个线性嵌入层，将其投射到一个任意维度(记为C)。

在这些补丁标记上应用几个具有改进的自注意力计算的Transformer块(Swin Transformer块)。Transformer块保持了标记的数量(H/4×W/4)，并与线性嵌入一起被称为“阶段1”。

为产生一个分层表示，随着网络的深入，补丁合成层可以减少标记的数量。第一个补丁合并层将每一组2×2个相邻补丁的特征连接起来，并在4c维连接的特征上应用一个线性层。这将标记的数量减少了2×2=4的倍数（2×分辨率降采样），输出维度设置为2C。然后应用Swin Transformer块进行特征变换，分辨率保持在H/8×W/8。这个补丁合并和特征转换的第一个块被表示为“阶段2”。该过程重复两次，如“阶段3”和“阶段4”，输出分辨率分别为H/16×W/16和H/32×W/32。这些阶段共同产生了一个层次化的表示，具有与典型卷积网络相同的特征图分辨率，如VGG[52]和ResNet[30]。因此，所提出的架构可以方便地取代现有方法中的各种视觉任务。

Swin Transformer块 Swin Transformer是通过将Transformer块中的标准多头自注意(MSA)模块替换为基于移动窗口的模块（见第3.2节），其他层保持不变。如图3(b)所示，一个Swin Transformer块由一个基于移位窗口的MSA模块组成，然后是一个中间具有GELU非线性的2层MLP。在每个MSA模块和每个MLP之前应用一个LayerNorm(LN)层，在每个模块之后应用一个残差连接。

3.2 基于自注意力的移动窗口

标准的Transformer结构及其对图像分类的适应都采用全局自注意力，计算一个标记和所有其它标记之间的关系。全局计算导致了关于标记数量的二次复杂度，这使它不适合很多需要大量标记来进行密集预测或表示高分辨率图像的视觉问题。

在非重叠窗口中的自注意力 为有效建模，我们提出在局部窗口内计算自注意力。这些窗口被安排成以不重叠的方式均匀地分割图像。假设每个窗口包含M×M补丁，一个全局MSA模块和一个基于h×w补丁图像的窗口的计算复杂度为：

其中，前者与补丁数hw之间为二次型，当M固定（默认设置为7）时，后者为线性型。全局自注意力计算对于一个大的hw通常是不可承受的，而基于窗口的自注意是可扩展的。

连续块中的移动窗口分区 基于窗口的自注意力块缺乏跨窗口的连接，这限制了其建模能力。为了在保持非重叠窗口计算效率的同时引入跨窗口连接，我们提出一种移动窗口划分方法，在连续的Swin Transformer块中的两种划分配置交替进行。

如图2所示，第一个模块使用规则的窗口划分策略，从左上角的像素开始，8×8特征图均匀地划分为2×2窗口，大小为4×4(M=4)。然后，下一个模块采用一种从前一层的窗口中，通过从规律划分的窗口中替换窗口(bM2c，bM2c)个像素。

采用移动窗口划分方法，连续的Swin Transformer块计算为：

其中，zˆl和zl分别表示块l的(S)W-MSA模块和MLP模块的输出特征；W-MSA和SW-MSA分别表示基于窗口的使用规则和移动窗口划分配置的多头自注意力。

移动窗口划分方法在上一层中引入相邻的非重叠窗口之间的连接，在图像分类、目标检测和语义分割等方面都有效，如表4所示。

移动配置的高效的批计算 移动窗口划分的一个问题是，它将导致更多的窗口，移动配置从[h/M]×[w/M]到([h/M]+1)×([w/M]+1)，并且一些窗口将小于M×M。一个简单的解决方案是将较小的窗口填充到M×M的大小，并在计算注意力时屏蔽填充的值。当常规划分中的窗口数量较小时，例如，2×2，使用这个朴素的解决方案增加的计算量是相当大的（2×2→3×3，这是2.25倍）。在这里，我们提出了一种更有效的批处理计算方法，即向左上角的方向循环移动，如图4所示。在此移动之后，批窗口可以由特征图不相邻的多个子窗口组成，因此使用一个掩码机制将自注意力计算限制在每个子窗口内。通过循环转移，批处理窗口的数量保持不变，因此也是有效的。这种方法的低延迟如表5所示。

相对位置偏见在计算自注意力时，我们遵循[49,1,32,33]，在计算相似度中对每个头包含一个相对位置偏差B∈RM2×M2：

其中，Q、K、V∈RM2×d为query、key和value矩阵；d为query/key维度，M2为窗口中的补丁数。由于沿每个轴的相对位置在范围内[−M+1，M−1]，我们参数化了一个较小的偏置矩阵ˆB∈R(2M−1)×(2M−1)，B中的值取自Bˆ。

我们观察到，与没有这个偏差项或使用绝对位置嵌入的同行相比，有显著的改进，如表4所示。在[20]中进一步添加绝对位置嵌入会略微降低性能，因此在我们的实现中没有采用它。

在预训练中学习到的相对位置偏差也可以通过双立方插值[20,63]来初始化一个具有不同窗口大小的微调模型。

3.3 结构变体

我们建立我们的基本模型--Swin-B，与ViT-B/DeiT-B有着相似的模型尺寸和计算复杂度。我们还引入了Swin-T、Swin-S和Swin-L，分别为模型大小和计算复杂度的约0.25×、0.5×和2×。需要注意的是，Swin-T和Swin-S的复杂性分别与ResNet-50(DeiT-S)和ResNet-101相似。窗口大小默认设置为M=7。在所有实验中，每个头的查询维度为d=32，每个MLP的扩展层为α=4。这些模型变体的架构超参数为：

其中，C为第一阶段隐藏层的信道数。表1列出了用于ImageNet图像分类的模型大小、理论计算复杂度(FLOPs)和模型变量的吞吐量。

四、实验

我们对ImageNet-1K图像分类[19]、COCO目标检测[43]和ADE20K语义分割[83]进行了实验。我们首先将提出的Swin变压器架构与之前的三个技术进行比较。然后，我们消除了Swin Transformer的重要设计元素。

4.1 在ImageNet-1K上的图像分类

ImageNet-1K包含来自1000个类的1.28M训练图像和50K验证图像。我们考虑了两种训练设置：1）常规ImageNet-1K训练，我们在训练中包括了大多[63]的增强和正则化策略，除了重复的增强和EMA，它们并没有提高性能。而重复增强对稳定ViT的训练至关重要。2）在ImageNet-22K上预训练在ImageNet-1K上微调。

常规ImageNet-1K训练的结果 表1a中，与之前最新基于Transformer的架构相比，即DeiT相比，Swin Transformer明显超过了具有类似的复杂度的模型：使用224^2输入Swin-T为+1.5%（79.8%），Swin-B+使用224^2/384^2输入为+1.5%/1.4%（81.8%/83.1%）。与先进的卷积网络相比，即RegNet和EfficientNet相比，Swin Transformer实现了更好的速度-精度权衡。需要注意的是，虽然RegNet[48]和EfficientNet[58]是通过彻底的架构搜索获得的，但所提出的Swin Transformer是由标准Transformer改编而来的，具有很强的进一步改进潜力。

ImageNet-22K预训练的结果 如表1b，对于Swin-B，ImageNet-22K预训练比ImageNet-1K预训练带来1.8%的∼收益1.9%。与之前ImageNet-22K预训练的最佳结果相比，我们的模型实现了显著更好的速度-精度权衡：Swin-B获得了86.4%的top-1精度，比类似的推理吞吐量(84.7/85.9vs.图像/秒)，略低的FLOPs(47.0G/55.4G)高2.4%。较大的Swin-L模型达到87.3%的前1精度，+比Swin-B模型高0.9%。

4.2 在COCO上的目标检测

在消融研究中，我们考虑了四种典型的目标检测框架：Cascade Mask R-CNN、ATSS、RepPoints v2、和Sparse RCNN。

与ResNe(X)t的比较 表2(a)列出了Swin-T和ResNet-50在四个目标检测框架上的结果。与ResNet-50相比，我们的Swin-T结构带来了+3.4∼4.2box AP收益，模型大小、流量和延迟略大。表2(b)比较了Swin Transformer和ResNe(X)t在使用Cascade Mask RCNN的不同模型能力，Swin Transformer实现了51.9 box AP和45.0掩模AP的高检测精度，+3.6box AP和+3.3掩模AP显著高于ResNeXt101-64x4d，具有相似的模型大小、流量和延迟。在使用改进的HTC框架的52.3的box AP和46.0的掩模AP的更高基线上，+4.1的盒AP的增益也很高，+3.1的掩模AP(见表2(c))。关于推理速度，虽然ResNe(X)t是由高度优化的Cudnn函数构建的，但我们的架构是用内置的PyTorch函数实现的，这些函数并不是都经过了很好的优化。一个彻底的核优化超出了本文的范围。

与DeiT的比较 使用级联掩码R-CNN框架的DeiT-S的性能如表2(b).所示。Swin-T的结果是+2.5boxAP和+2.3掩模AP高于DeiT-S，模型大小相似(86Mvs.80M)，且显著高于推理速度(15.3FPSvs.10.4FPS)。DeiT的推理速度较低，主要是由于它对输入图像大小的二次复杂度。

与之前最新结果的比较 表2(c)将我们的最佳结果与以前最先进的模型进行了比较。我们的最佳模型在COCO测试开发上达到了58.7box AP和51.1掩码AP，超过了之前+2.7box AP（没有外部数据的复制粘贴[26]）和+2.6掩码AP（检测器[46]）的最佳结果。

4.3 在ADE20K上的语义分割

表3列了不同方法/主干对的mIoU、模型大小、FLOPs和FPS。从这些结果可以看出，Swin-S的+比DeiT-S高5.3mIoU（49.3比44.0.）。+4.4mIoU高于ResNet-101，+2.4mIoU高于ResNeSt-101[78]。我们使用ImageNet-22K预训练的Swin-L模型在val集上达到53.5mIoU，超过了之前+3.2mIoU的最佳模型(SETR[81]的50.3mIoU，具有更大的模型尺寸)。

4.4 消融研究

移动窗口 表4报告了在这三个任务上的移动窗口方法的消融情况。移位窗口划分的Swin-T在每个阶段比单个窗口划分上的性能在ImageNet-1K上的+为1.1%，COCO上的+2.8盒AP/+2.2掩码AP和ADE20K上的+2.8mIoU。结果表明，使用移动的窗口在前几层的窗口之间建立连接是有效的。通过移位窗口产生的延迟开销也很小，如表5所示。

相对位置偏差 表4显示了不同位置嵌入方法的比较。具有相对位置偏差的Swin-T在ImageNet-1K上产生+1.2%/+0.8%前1的精度，在COCO上+1.3/+1.5盒AP和+1.1/+1.3掩模AP，和在ADE20K上+2.3/+2.9mIoU分别相对于没有位置编码和绝对位置嵌入的那些，表明相对位置偏置的有效性。还需要注意的是，虽然包含绝对位置嵌入提高了图像分类精度（+0.4%），但它损害了目标检测和语义分割(COCO的-0.2box/maskAP和ADE20K的-0.6mIoU)。

虽然最近的ViT/DeiT模型放弃翻译不变性在图像分类，尽管它长期以来一直被证明是至关重要的视觉建模，我们发现归纳偏见，鼓励某些翻译不变性仍然适合通用视觉建模，特别是预测任务密集的目标检测和语义分割。

不同的自注意力方法 表5比较了不同的自注意计算方法和实现的真实速度。我们的循环实现比简单的填充更有硬件效率，特别是对于更深层次的阶段。总体而言，Swin-T、Swin-S和Swin-B的增长速度分别提高了13%、18%和18%。

在四个网络阶段上，在移位窗口方法中，自注意模块比滑动窗口的效率分别为40.8×/2.5×、20.2×/2.5×、9.3×/2.1×和7.6×/1.8×。总的来说，构建在移动窗口上的Swin变压器架构分别比建立在Swin-T、Swin-S和Swin-B上的变体快4.1/1.5、4.0/1.5、3.6/1.5倍。表6比较了它们在三个任务上的准确性，表明它们在视觉建模中的准确性相似。

与Preformer[14]相比，这是最快的变压器架构之一（见[60]），提出了基于移动窗口的自我注意计算和整体双变压器架构略快（见表5），同时实现+2.3%的顶级精度相比表演者ImaneNet-1k使用Swin-T（见表6）。

五、总结

本文提出Swin Transformer，一种新的视觉Transformer产生了一个层次化特征表示，对于输入图像的大小具有线性的计算复杂度。Swin Transformer在COCO目标检测和ADE20K语义分割上实现了最新的表现，显著超过以往的最佳方法。我们希望Swin Transformer在之前视觉问题上的强大性能将会鼓励视觉和语言信号的统一建模。

作为Swin Transformer的一种关键元素，基于移动窗口的自注意力对视觉问题是有效的，我们期待研究其在自然语言处理中的应用。

Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
多模态大模型发展全景：从架构创新到应用突破陈敬雷-充电了么-CEO兼CTO python 大模型多模态大模型 AIGC 机器学习深度学习 DeepSeek
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】《GPT多模态大模型与AIAgent智能体》新出书籍配套视频【陈敬雷】推荐算法系统实战全系列精品课【陈敬雷】文章目录GPT多模态大模型系列四多模态大模型发展全景：从架构创新到应用突破更多技术内容总结GPT多模态大模型系列四多模态大模型
知乎问答感怀
知乎问答感怀世间纯良，明月当亮，浮尘无流春芳易逝，再想那年为讲。思晨中日，数天难享。水去无痕，但见花开费思量。何故有情？时常足长，促容间，赤墨本心比莲，自性为上。叶生叶落，共存酒酿。
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
万向节死锁公式推导微小冷机器人欧拉角旋转矩阵万向节万向节死锁旋转轴旋转
文章目录欧拉角的万向节死锁旋转轴欧拉角的万向节死锁如果把刚体的旋转沿着三个旋转轴进行拆分，那么可以变成三个旋转角的叠加，这三个旋转角就是欧拉角，分别对应旋转矩阵，为了书写方便，记Sθ=sin⁡θ,Cθ=cos⁡θS_\theta=\sin\theta,C_\theta=\cos\thetaSθ=sinθ,Cθ=cosθ，则三个旋转矩阵为Rx(θ)R_x(\theta)Rx(θ)Ry(θ)R_y(\
新手向:实现验证码程序 nightunderblackcat Java新手开发语言 java maven spring intellij-idea spring boot spring cloud
本文将从零开始，通过一个简单的验证码程序。即使你没有任何编程基础，也能跟着这篇文章一步步学习。第一章：Java开发环境搭建1.1安装JDK要开始Java编程，首先需要安装Java开发工具包(JDK)。JDK是Java开发的核心，包含了运行Java程序所需的工具和库。访问Oracle官网下载适合你操作系统的JDK运行安装程序，按照提示完成安装配置环境变量（这一步很重要，确保你可以在任何目录下运行Ja
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
VMware Fusion 13 Mac虚拟机
VMwareFusionPromac不仅能让你在Mac苹果电脑上运行Windows或Linux系统、使用非Mac平台的应用，而且还可以支持各种USB硬件设备。原文地址：VMwareFusion13Mac虚拟机
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
前端开发实践：疑难问题与解决方案总结沈大大520 实际开发所遇见的问题 vue.js 前端
本文将分享前端开发实践：疑难问题与解决方案总结，希望对大家在面试过程中有一定的帮助！作者：沈大大更新时间：2025-03-13前言在前端开发过程中，我们经常会遇到各种各样的技术难题。本文将分享在实际开发中遇到的一些典型问题及其解决方案，希望能给其他开发者一些参考和启发。性能优化类问题1.首屏加载过慢问题描述页面首次加载时间超过3秒用户等待时间过长白屏时间明显问题分析打包体积过大第三方库引入过多未进
Vue3面试必刷36题（2024最新版） systemseer 面试职场和发展
文章目录一、基础概念篇1.Vue3相比Vue2有哪些重大改进？（必考！！！）2.OptionsAPIvsCompositionAPI如何选择？二、核心机制篇3.为什么Vue3用Proxy代替defineProperty？4.ref和reactive有什么区别？（高频题）三、进阶实战篇5.组件通信方式大全（超级重要）6.如何实现权限按钮控制？四、性能优化篇7.项目打包体积太大怎么破？8.长列表渲染卡
MacBookPro上macOS安装第三方应用报错解决方案：遇到:“XXX已损坏，无法打开。移到废纸篓/推出磁盘映像。“
本文已把“XXX已损坏，无法打开。您应该将它移到废纸篓／推出磁盘映像”的根因、排查思路、风险提示与六大解决策略一步到位地梳理出来，力求让你既能快速解决问题，又能理解macOS在幕后到底做了什么。内容基于macOS14Sonoma及之前版本，后续版本的思路也基本通用。文章目录作者简介猫头虎是谁？作者名片✍️加入我们AI共创团队加入猫头虎的AI共创变现圈，一起探索编程世界的无限可能！正文1·错误成因到
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
百度搜索下拉框,下拉菜单怎么做?如何刷? mt_187 日常记录技术收藏 html5
搜索下拉菜单反馈性关键词是用户在搜索时与搜索引擎的第一步互动，在互动过程中，搜索引擎的反馈关键词不断调整来满足用户的个性需求。搜索下拉框存在的下拉词，每天的点击浏览量都很高，这意味着很多企业都在抢这个位置，在网民搜索自己的行业主关键词时，下拉中的词条是行业关键词和自己品牌词或其他营销类词的整体呈现。搜索下拉框菜单怎么做?如何刷?在本篇文章中您将会了解到以下信息。第一部分搜索下拉框菜单原理第二部分怎
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
大模型之Spring AI实战系列（三十二）：Spring Boot + DeepSeek 实战指南：工具函数（Function Call）实战应用
系列篇章No.文章1大模型之SpringAI实战系列（一）：基础认知篇-开启智能应用开发之旅2大模型之SpringAI实战系列（二）：SpringBoot+OpenAI打造聊天应用全攻略3大模型之SpringAI实战系列（三）：SpringBoot+OpenAI实现聊天应用上下文记忆功能4大模型之SpringAI实战系列（四）：SpringBoot+OpenAI使用OpenAIEmbedding实
Python 通过IP地址查询地理位置
文章目录Python通过IP地址查询地理位置一、在线API查询（简单快速，依赖网络）1.**使用`requests`+ipinfo.io**2.**使用`requests`+ip-api.com**二、本地数据库查询（离线高效，需下载数据库）1.**使用`geoip2`+GeoLite2数据库**2.**其他本地库对比**️三、结果可视化（增强展示）使用`folium`生成交互地图⚖️四、方法选择
SpringBoot-19-企业云端开发实践之web开发晋级皮皮冰燃 SpringBoot spring boot 前端后端
文章目录1静态资源访问1.1static静态资源目录1.2application.properties(过滤规则)2文件上传2.1文件上传原理2.2SprintBoot文件上传功能2.3FileUploadController.java2.4配置访问上传的文件3拦截器3.1interceptor/LoginInterceptor3.2config/WebConfig4RESTful服务和Swagg
iOS CocoaPods（依赖管理）安装和使用教程 Andyjicw iOS 移动开发 cocoapods ios 开发教程依赖
参考资料CocoaPods简介每种语言发展到一个阶段，就会出现相应的依赖管理工具，例如Java语言的Maven，nodejs的npm。随着iOS开发者的增多，业界也出现了为iOS程序提供依赖管理的工具，它的名字叫做：CocoaPods。CocoaPods项目的源码在Github上管理。该项目开始于2011年8月12日，经过多年发展，现在已经成为iOS开发事实上的依赖管理标准工具。开发iOS项目不可
Amoonsky 4画面分割器：拓展LED和LCD显示的多功能解决方案 Amoonsky_Mike LED显示屏画面分割器视频切换器物联网视频音视频经验分享矩阵
介绍：想象一下在多个屏幕之间实现无缝切换，轻松管理和控制各种视觉输出。Amoonsky的4画面分割器是创新的典范，不仅专为LED显示行业设计，还专门满足LCD显示解决方案的动态需求。这项尖端技术开启了视觉显示管理的新时代，在同时划分、管理和呈现四个屏幕上提供了无与伦比的灵活性和功能性。无论是复杂的LED显示还是精密的LCD设置，这个分割器都展现了其适应性的典范，为当今多层面显示环境提供了全面且用户
【PTA数据结构 | C语言版】在单链表 list 的第 i 个位置上插入元素 x
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，将n个整数插入初始为空的单链表，第i个整数插入在第i个位置上。注意：i代表位序，从1开始。插入结束后，输出链表长度，并顺序输出链表中的每个结点的数值。最后，尝试将最后一个整数插入到链表的第0个、第n+2个位置上，以测试错误信息的输出。输入格式：输入首先在第一行给出正整数n（≤20）；随后一行给出n个int范围内的整数，数字间以
WHAT - 依赖管理工具 CocoaPods @PHARAOH React Native 学习专栏 cocoapods xcode
文章目录1.什么是CocoaPods？2.如何安装CocoaPods？(1)确保已安装Ruby（macOS默认自带）(2)安装CocoaPods(3)验证安装3.在ReactNative项目中使用CocoaPods(1)进入iOS目录(2)初始化Podfile（如果不存在）(3)安装依赖(4)打开Xcode项目4.ReactNative中常见的CocoaPods使用场景(1)安装需要原生支持的Re
LabVIEW串口通信实战教程：上位机与下位机数据交互安检
本文还有配套的精品资源，点击获取简介：LabVIEW作为一种图形化编程工具，非常适合开发用于测试、测量和控制的应用程序。本文介绍了一个LabVIEW串口通信实例——“串口助手.vi”，通过它可以作为上位机接收下位机通过串口发送的数据。文章详细解释了LabVIEW中串口通信的关键技术点，包括串口配置、打开和关闭串口、数据读取与写入、错误处理、数据解析、用户界面设计、事件结构以及实时监控。掌握这些技术
arm架构离线部署docker 月慕向阳 arm开发
1.首先检查服务器glibc版本 rpm-qglibc如果glibc-2.35版本以上，则参考下面安装步骤，包下载地址链接：https://pan.baidu.com/s/1X64XrzRva0O7ZSekLZdIcA?pwd=8k4c提取码：8k4cglibc-2.35以上Docker离线安装如下mkdir/opt/dockercd/opt/docker#上传docker-engine-18.0
快速启动静态网络服务器的Run工具使用指南闫泽华
本文还有配套的精品资源，点击获取简介：本文介绍了如何使用run工具，一个通过npm全局安装的Node.js包，来启动一个简单的静态文件服务器。介绍了npm的作用，以及如何全局安装run。随后，文章解释了run工具的用途，包括从任何目录快速启动静态网站服务器的能力，并讨论了它在开发、测试和演示中的应用。还涉及了使用run工具时涉及的一些基本任务，如处理HTTP请求和返回静态资源，以及提供了源代码文件
国产（以麒麟为例）环境，离线安装docker、docker-compose、milvus 般若-波罗蜜 1024程序员节 docker python 深度学习 pytorch
文章目录一、专有名词解释1.主流cpu2.操作系统二、安装docker2.读入数据总结docker错误解决方法一、专有名词解释1.主流cpu架构（指令集）x86（早期intel开发的32位指令集）x64（CISC）1）AMD64--------AMD首先开发出64位指令集，向下兼容32位2）x86_64--------intel使用AMD的64位指令集，换了个名字而已ARMAArch64为ARMv
基于STM32单片机的物联网温室玫瑰种植系统
文章目录一、目的和意义二、项目内容和功能介绍三、效果图四、资料获取一、目的和意义基于STM32单片机的物联网温室玫瑰种植系统介绍一、系统概述基于STM32单片机的物联网温室玫瑰种植系统，是集环境监测、自动控制、远程管理于一体的智能化农业解决方案。该系统以STM32为核心控制器，通过传感器实时采集温室内的温度、湿度、光照、二氧化碳浓度、土壤温湿度及氮磷钾含量等关键参数，结合物联网技术实现数据远程传输
基于STM32单片机的考勤打卡系统
文章目录一、系统概述二、项目内容和功能介绍三、效果图四、资料获取一、系统概述基于STM32单片机的考勤打卡系统介绍一、系统概述基于STM32单片机的考勤打卡系统是一种集数据采集、身份识别、记录存储与远程管理于一体的智能化考勤解决方案。该系统以STM32微控制器为核心，通过非接触式识别技术（如RFID、指纹、人脸识别）或传统输入方式（如按键、密码）快速采集员工考勤信息，结合实时时钟模块（RTC）记录
Linux/Unix 套接字Socket编程(socket基本概念，流程，流式/数据报socket，Unix domain socket示例)
套接字文章目录套接字Isocket基础1、通信domain2、通用socket地址结构体3、socket类型4、创建和关闭socket5、将socket绑定到地址6、流socket(1)流socket服务端-客户端模型(2)系统调用listen()(3)系统调用accept()(4)系统调用connect()(5)系统调用recv()(6)系统调用send()7、数据报socket(1)数据报so
共享内存的创建和使用 Ring__Rain C++c++
以下是对ShareMemoryPubManager::CreateShm函数的详细解读，结合代码逻辑和Windows共享内存机制分析：1.函数功能概述该函数用于创建并映射一个共享内存区域，将其封装到自定义结构体SwathShareMemory中，并存储到成员变量m_shmQueue中。核心步骤包括：构造共享内存名称：基于shm_prefix和shm_id生成唯一标识。创建文件映射对象：调用Crea
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =