计算机视觉研究院

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！

2023

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

计算机视觉研究院专栏

作者：Edison_G

这篇论文讨论了在计算机视觉任务中使用 Vision Transformer（ViT）的情况下，如何优化ViT的性能和复杂度，使其能够在移动设备上运行。论文提出了多种方法来加速注意力机制，改善低效的设计，或者将移动设备友好的轻量级卷积结合在一起形成混合架构。

学习群｜扫码在主页获取加入方式

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第1张图片

论文链接：
https://arxiv.org/pdf/2212.08059.pdf
代码链接：
https://github.com/snap-research/EfficientFormer

导读

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第2张图片

然而，即使是几年前的 MobileNet，ViT 及其变体仍然具有更高的延迟或更多的参数。在实际应用中，延迟和大小对于在资源受限的硬件上运行都是至关重要的。在这项工作中，我们研究了一个核心问题：Transformer 模型是否可以像 MobileNet 一样快速运行，并保持相似的大小？ 我们重新检查ViT的设计选择，并提出了一个具有低延迟和高参数效率的改进型超网络。我们进一步引入了一种细粒度的联合搜索策略，可以通过同时优化延迟和参数数量来找到高效的架构。本文所提出的 EfficientFormerV2 模型在 ImageNet-1K 上的 Top-1 精度比 MobileNetV2 和 MobileNetV2×1.4 高出约 4%，同时具有相似的延迟和参数。我们证明，经过适当设计和优化的 Vision Transformer 可以实现 MobileNet 水平的性能，同时具有 MobileNet 水平的大小和速度。

这篇论文的主要贡献：

提出了一种新的超网络设计方法，该方法在维护较高的准确性的同时，可以在移动设备上运行。
提出了一种细粒度的联合搜索策略，该策略可以同时优化延迟和参数数量，从而找到高效的架构。
EfficientFormerV2 模型在 ImageNet-1K 数据集上的准确性比 MobileNetV2 和 MobileNetV2×1.4高出约 4%，同时具有相似的延迟和参数。

背景

为了缓解 Vision Transformer（ViT）在移动设备上运行时存在的局限性，研究人员采取了许多研究努力。其中一个方向是减少注意机制的二次计算复杂度。Swin 等后续工作提出了基于窗口的注意，使感受野被限制在预定义的窗口大小，这也启发了后续工作对注意模式进行改进。通过预定义的注意跨度，计算复杂度变为与分辨率成线性关系。然而，由于密集的形状和索引操作，在移动设备上很难支持或加速复杂的注意模式。另一种方法是将轻量级CNN和注意机制结合在一起形成混合架构。这样做有两个好处。首先，卷积是不变移位的，擅长捕捉局部和详细信息，可以被视为 ViT 的良好补充。其次，通过将卷积放在早期阶段，将 MHSA 放在最后几个阶段以模拟全局依赖关系，我们可以自然地避免在高分辨率上执行 MHSA 并节省计算。Transformer 是一种特殊的神经网络架构，它可以帮助解决序列模型的问题。然而，Transformer 模型往往比较大，并且计算效率也不够高。因此，作者提出了一个问题：是否有可能设计一种基于 Transformer 的模型，既轻巧又能快速运行，同时保留较高的性能？

作者考虑了三个关键因素：参数数量，延迟和模型性能。这些因素反映了磁盘存储，移动 FPS 和应用质量。首先，作者重新审视了最近的有效 ViT 模型，验证并改进网络架构，形成了一个更强的设计范式。其次，作者提出了一种细粒度的架构搜索算法，该算法联合优化模型大小和速度。通过改进的设计和搜索方法，作者在各种模型大小和速度的限制下获得了一系列模型，同时保持了较高的性能，命名为 EfficientFormerV2。在 iPhone 12上，具有完全相同大小和延迟（latency）的 EfficientFormerV2-S0 在 ImageNet-1K 上的 top-1 准确度比 MobileNetV2高出 3.9％。与 EfficientFormer-L1 相比，EfficientFormerV2-S1 的性能相似，同时更小2倍，更快1.3倍。

论文的贡献可以归纳如下：

提供了一个综合研究，旨在验证和改进移动友好的设计选择，这是一个实用的指南，可以获得超高效的Vision Backbone。
提出了一种细粒度的联合搜索算法，可以同时优化模型大小和速度，实现优越的帕累托 (Pareto curve) 最优性。
这种模型具有超快速的推理能力和超小的模型尺寸，在各种下游任务中表现出色，大幅优于之前的技术。

Method

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第3张图片

上图展示了EfficientFormerV2模型中多个模块的结构组成细节。

Rethinking Hybrid Transformer Network

研究人员研究了提高 ViTs 效率的设计选择，并确定了导致模型尺寸变小、速度变快而性能不降低的变化。论文中使用了 EfficientFormerL1 作为基准模型，以验证修改的效果，因为它在移动设备上表现出色。

Token Mixers vs. Feed Forward Network

本段讨论了如何在 ViTs 模型中改进性能，使其更加鲁棒，并且能够更好地处理位置信息。文中提到，PoolFormer 和 EfficientFormer 模型使用3×3平均池化层作为局部令牌混合器，将这些层替换为相同内核大小的深度卷积（DWCONV）可以在不增加延迟的情况下提高性能0.6%，且参数增加微不足道（0.02M）。另外，最近的研究表明，在ViTs的前馈网络（FFN）中注入局部信息建模层也有助于提升性能，且开销较小。在FFN中添加深度卷积以捕获局部信息会复制原来的局部混合器（池化或卷积）的功能。因此，他们决定删除显式的残留连接的局部令牌混合器，并将深度卷积移入FFN，从而得到一个带有局部性的统一 FFN。然后，他们将统一 FFN 应用于网络的所有阶段。这种设计修改使得网络架构只有两种类型的块（局部 FFN 和全局注意力），在延迟相同的情况下，提高了准确率至80.3%，且参数增加较少（0.1M）。这种修改方式允许直接搜索网络深度，以确切的模块数量来提取局部和全局信息，特别是在网络的后期阶段。

Search Space Refinement

探究在统一的 FFN 和删除残留连接的令牌混合器的情况下，EfficientFormer 的搜索空间是否仍然足够，特别是在深度方面。研究人员通过改变网络深度（每个阶段中的块数）和宽度（通道数）来进行研究，并发现较深较窄的网络导致更高的准确度（0.2%的改进），更少的参数（0.13M的减少），以及较低的延迟（0.1ms的加速）。因此，我们将这种网络设置为新的基准（准确度80.5%），以验证后续设计修改，后文启用更深的超级网络进行体系结构搜索。

为了进行比较，研究人员将额外的一个阶段添加到当前的基准网络中，并验证性能增益和开销。值得注意的是，尽管在小特征分辨率的情况下计算开销不是问题，但额外的阶段仍然需要大量的参数。因此，我们需要缩小网络维度（深度或宽度），以使参数和延迟与基准模型保持一致，以便进行公平的比较。如后续实验所示，五阶段模型的最佳性能意外地下降到了80.31%，尽管在 MACs（0.12G）方面节省了成本，但参数（0.39M）和延迟开销（0.2ms）增加了。这与我们的直觉相符，即第五阶段在计算效率方面很好，但在参数方面需要很多。考虑到五阶段网络在我们的尺寸和速度范围内无法引入更多的潜力，我们坚持四阶段设计。这项分析也解释了为什么一些ViT在 MACs-Accuracy 方面提供了优秀的帕累托曲

MHSA Improvements

作者探究了两种用于 MHSA 的方法。首先，通过添加深度方向的3 x 3卷积（CONV）将局部信息注入值矩阵（V）。其次，通过在头维度之间添加全连接层，使注意力头之间进行通信。通过这些改进，我们进一步将性能提升至80.8%，至此精度和时延都与 baseline 模型相近。

Attention on Higher Resolution

MHSA 的注意力机制在较高分辨率的特征上的应用可能会导致手机效率降低的问题。作者尝试在较高分辨率的特征（早期阶段）上有效地应用 MHSA，并在测试中发现，在最后一个具有 1/32 空间分辨率的输入图像的阶段中应用 MHSA 可以使准确率提高 0.9%，但是推理速度减慢了 2.7 倍。因此，有必要适当减少注意力模块的复杂度。

现有的方法，即窗口基注意力和下采样键和值，可以解决注意力机制在移动设备上应用时带来的复杂度增加问题，但是作者认为这些方法并不适用于移动设备的部署。窗口基注意力因其复杂的窗口划分和重排难以在移动设备上加速。至于下采样键（K）和值（V），为了保留注意力矩阵相乘后的输出分辨率（Out），需要使用全分辨率查询（Q）。

作者使用了一种名为 "Stride Attention" 的方法来在网络的早期阶段应用 MHSA，从而减少了模型的延迟时间，并在保证准确率的情况下提高了手机的效率。在这种方法中，作者将所有的查询、键和值下采样到固定的空间分辨率（1/32），然后将注意力的输出插值回原始分辨率，以便输入到下一层。根据测试，使用这种方法可以将模型的延迟时间从 3.5ms 降低到 1.5ms，同时准确率仅略有下降（81.5% vs. 81.7%）。

Attention Downsampling

一些视觉后端使用步幅卷积或池化层来执行静态和局部下采样，并构成分层结构的情况。一些最近的工作开始探索注意力下采样。例如，LeViT [22] 和 UniNet [46] 提出通过注意力机制将特征分辨率减半，以便具有全局感受野的上下文感知下采样。具体来说，将查询中的令牌数减半，从而使注意力模块的输出下采样：

作者提出的一种结合本地性和全局依赖的策略，用于在网络的早期阶段应用注意力下采样，从而在保证可接受的推理速度的情况下提高准确率。在这种策略中，作者使用池化作为静态局部下采样，使用 3 × 3 DWCONV 作为可学习的局部下采样，并将结果组合并投影到查询维度。此外，注意力下采样模块与正常的步幅 CONV 进行残差连接，以形成本地-全局的方式，类似于下采样瓶颈或反向瓶颈。根据后续实验所示，使用注意力下采样后，准确率进一步提高到 81.8%，虽然参数和延迟开销略有增加。

EfficientFormerV2

也就是现有的方法仅仅关注于优化一个度量标准（metric），因此要么在大小上是冗余的（redundant in size），要么在推理（inference）时慢。为了找到最适合移动部署的视觉主干（vision backbones），作者提出了联合优化模型大小和速度的方法。此外，文章中提到的网络设计（network designs）偏向于更深的网络架构（deeper network architecture）和更多的注意力（more attentions），因此需要改进搜索空间和算法。在接下来的内容中，作者将介绍 EfficientFormerV2 的超网（supernet）设计和搜索算法。

Design of EfficientFormerV2

作者提到了使用 4 阶分层设计的方法，该方法获得输入分辨率为 {1/4, 1/8, 1/16, 1/32} 的特征大小。EfficientFormerV2 使用小内核卷积模块（small kernel convolution stem）将输入图像嵌入，而不是使用不高效的非重叠块（non-overlapping patches）嵌入。

总的来说就是使用分层设计的方法来获得不同大小的特征。此外，作者还提到了使用小内核卷积模块来嵌入输入图像，而不是使用不高效的嵌入方法。

Jointly Optimizing Model Size and Speed

作者提到了基准网络 EfficientFormer 的两个主要缺陷。首先，搜索过程仅受到速度的限制，导致最终模型参数冗余。其次，它仅搜索每个阶段的深度（块数 Nj）和宽度 Cj，这是一种粗粒度的方式。实际上，网络的大多数计算和参数都在 FFN 中，并且参数和计算复杂度与其扩展率 Ei,j 线性相关。Ei,j 可以独立为每个 FFN 指定，而无需相同。因此，搜索 Ei,j 可以启用更细粒度的搜索空间，其中计算和参数可以在每个阶段内灵活且非均匀分布。这是最近 ViT NAS 中缺失的属性，其中 Ei,j 在每个阶段中保持相同。我们提出了一种搜索算法，该算法启用了灵活的每块配置，并在大小和速度之间进行联合约束，并找到最适合移动设备的视觉主干。

为了解决 EfficientFormer 的缺陷，作者提出了一种搜索算法，该算法允许灵活的每块配置，并在大小和速度之间进行联合约束，以找到最适合移动设备的视觉主干。作者指出，在大多数最近的 ViT NAS 模型中，Ei,j 在每个阶段中保持相同，因此缺少了在每个阶段内计算和参数可以灵活且非均匀分布的能力。作者认为，通过搜索 Ei,j，可以在可以分布灵活且非均匀的搜索空间中找到最优的解决方案。

Search Objective

作者介绍了指导其联合搜索算法的度量标准。由于在评估移动友好型模型时网络的大小和延迟都很重要，因此我们考虑使用一种通用且公平的度量标准，更好地了解网络在移动设备上的性能。为了不损失一般性，我们定义了一个 Mobile Efficiency Score（MES）：

MES 度量了网络在移动设备上的效率，它既考虑了网络的速度，也考虑了网络的大小。作者认为，通过使用 MES 这种度量标准，可以更好地找到最适合移动设备的网络。

Search Space and SuperNet

作者讨论了搜索空间的构成。搜索空间包括：(i)网络的深度，用每个阶段的块数 Nj 测量，(ii)网络的宽度，即每个阶段的通道维度 Cj，以及(iii)每个 FFN 的扩展比 Ei,j。MHSA 的数量可以在深度搜索期间轻松确定，它控制超网中块的保留或删除。因此，作者在超网的最后两个阶段中将每个块设置为 MHSA，然后跟随 FFN，并通过深度搜索获得具有所需全局 MHSA 数量的子网络。

作者进一步讨论了超网的构建方式。作者使用了可缩减网络（slimmable network）[78]来构建超网，该网络具有弹性深度和宽度，从而可以执行基于评估的纯搜索算法。弹性深度可以通过随机丢弃路径增强（stochastic drop path augmentation）[32]自然实现。对于宽度和扩展比，我们遵循 Yu 等人[78]的方法构建具有共享权值但独立归一化层的可切换层，使得相应层可以从预定义集合中的不同通道数执行，即 16 或 32 的倍数。

Search Algorithm

作者介绍了在已确定搜索目标、搜索空间和超网的情况下使用的搜索算法。由于超网可以在弹性深度和可切换宽度下执行，因此可以通过分析每次缩减操作的效率收益和精度下降来搜索具有最佳帕累托曲线（Pareto curve）的子网络。作者定义了操作池（action pool）如下：1.每个块的宽度缩减，2. 每个块的深度减少，3. 删除操作池中的块。通过这些操作，作者可以找到一个子网络，其具有最优的帕累托曲线，即在保持精度的同时尽可能降低模型的大小和推理时间。

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第4张图片

实验

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第5张图片

在ImgeNet-1K的分类任务中，对比SOTA模型，EfficientFormerV2在同规模参数下推理速度和精度均取得更优。

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第6张图片

在MS COCO 2017的目标检测和实例分割任务中，EfficientFormerV2的AP和mIOU比SOTA模型分别高出3%和2%。

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第7张图片

对比上一版本的EfficientFormer，EfficientFormerV2保持模型复杂度不变并取得了更高的精度。

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第8张图片

在ImageNet-1K数据集中，EfficientFormerV2在 MES 和 Accuary 两个指标上超越了近几年所有的SOTA模型。

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第9张图片

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！_第10张图片

EfficientFormerV2的网络结构以及训练参数，其中训练参数中的drop path中四个数值表示分别用在S0、S1、S2和L网络规模中。

总结

本文深入研究了混合视觉骨干网络并验证了适用于移动设备的设计选择。作者进一步提出了一种针对大小和速度的细粒度联合搜索，并获得了 EfficientFormerV2 模型系列，该模型既轻量又在推理速度上极快。由于本文简单地关注了大小和速度，因此未来的一个方向是将联合优化方法应用于探索其他关键指标（如内存占用和二氧化碳排放）的后续研究中。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、图像分割、模型量化、模型部署等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

VX：2311123606

当我的代码评审开始 “AI 打工”：聊聊这个让我摸鱼更心安的神器 Honesty861024 ci/cd ai git
作为一个每天和代码打交道的打工人，最头疼的莫过于提完MR后漫长的等待——reviewer可能在开会、可能在改bug、可能在摸鱼，而你的代码只能在“进行中”状态里默默吃灰。更惨的是偶尔遇到“人工漏检”，上线后发现奇奇怪怪的bug，只能对着屏幕疯狂道歉：“这锅我背，下次一定仔细查！”直到我发现了这个藏在云效里的神器——yunxiao-LLM-reviewer，现在我的MR终于有了一个24小时在线的“A
YOLO融合synergisticNet中的模块今天炼丹了吗 YOLOv11与自研模型专栏 YOLO
YOLOv11v10v8使用教程：YOLOv11入门到入土使用教程YOLOv11改进汇总贴：YOLOv11及自研模型更新汇总《HyperSINet:ASynergeticInteractionNetworkCombinedWithConvolutionandTransformerforHyperspectralImageClassification》一、模块介绍论文链接：https://ieeex
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
程序员自由职业：在代码与自由之间寻找平衡的艺术 qq_41019429 职场和发展创业创新程序员创富
——当996成为过去式，如何用技术编织属于自己的职业未来？一、自由职业：程序员的“数字游牧”革命在GitHub开发者调查中，42%的程序员表示未来3年希望成为自由职业者；而在StackOverflow的全球调研里，自由职业者的时薪中位数比全职员工高出28%。这些数据揭示了一个趋势：当传统职场陷入“内卷化”竞争，程序员群体正通过自由职业实现职业价值的重构。自由职业的核心魅力在于：时间主权：告别朝九晚
用AI实现“抢券自由”：手把手教你打造智能抢单机器人
目录一、手速不够？抢券党的真实困境二、技术揭秘：RPA+AI如何成为“抢券外挂”1.什么是RPA（机器人流程自动化）？2.AI工作流的降维打击三、实战教学：20行代码打造AI抢券机器人1.工具准备2.智能脚本核心代码四、高阶技巧：让机器人更“聪明”的3个秘密1.视觉识别加持2.多账号并行操作3.智能避坑策略五、技术延伸：RPA+AI还能做什么？六、避坑指南：新手常见问题解答一、手速不够？抢券党的真
javascript基础从小白到高手系列四千八百七十二：数值范围
除了"email"和"url"，HTML5还定义了其他几种新的输入元素类型，它们都是期待某种数值输入的，包括：“number”、“range”、“datetime”、“datetime-local”、“date”、“month”、“week”和"time"。并非所有主流浏览器都支持这些类型，因此使用时要当心。浏览器厂商目前正致力于解决兼容性问题和提供更逻辑化的功能。本节内容更多地是介绍未来趋势，而
摸鱼神器分享：3分钟搞定网页自动下滑，效率翻倍还能快乐摸鱼！✨ 铸剑师欧冶子电子牛马养成计划影刀RPA 经验分享笔记数据分析 facebook 个人开发其他
一、痛点场景：为什么我们需要网页自动化工具？作为一名程序员/数据分析师/运营人员，你是否经常遇到这些令人抓狂的情况？海量数据加载：打开FacebookMessenger等社交平台，上千条消息根本刷不到底！无效操作：按End键只能拉到当前加载处，手动下滑几分钟手都酸了...数据采集困难：想要抓取完整消息记录或页面底部信息，等待时间令人绝望关键词：网页自动化、RPA工具、数据采集、效率提升二、现有解决
【科研写作自动化工具】如何用AI技术组合（大模型+多Agent+自动化）打造一个“智能论文生产线”，把枯燥的写作流程变成自动化
n8n是一款开源的工作流自动化工具，类似于Zapier或Make（原Integromat），但更注重灵活性和开发者友好性。在课程文件中提到的n8n自动化流水线主要用于科研写作的自动化流程集成，以下是详细解释：n8n的核心功能可视化工作流设计：通过拖拽节点（Nodes）连接不同工具和服务，无需编写复杂代码即可搭建自动化流程。多平台集成：支持连接文献数据库（如PubMed、arXiv）、AI模型（如O
金融安全生命线：用AWS EventBridge和CloudTrail构建主动式入侵检测系统运维开发王义杰系统运维 aws 信息安全安全金融 aws
今天，我们来聊一个硬核又极具价值的话题：如何为身处安全风暴中心的金融系统，构建一道坚不可摧的主动式入侵检测防线。在金融领域，安全不是一个选项，而是生存的基石。任何微小的疏忽都可能导致灾难性的资产损失。传统的防火墙和WAF固然重要，但面对日益复杂的内部威胁和APT攻击，我们需要更智能、更主动的监控手段。幸运的是，AWS为我们提供了两个强大的武器：CloudTrail和EventBridge。利用AW
冒泡和快速排序的区别郭尘帅666 算法数据结构
冒泡算法快速排序时间复杂度O（n^2）最坏/平均O（nlogn）平均，O（n^2）最坏空间复杂度O（1）O（logn）最好/O(n)最坏稳定性很稳定(元素顺序不变)不稳定(元素顺序可能改变)适用场景小规模数据或接近有序的数据大规模数据核心思想重复遍历，每轮都会把最大的元素移至末尾选择基准值，比基准值小的元素放左边，大的放右边代码实现对比1.冒泡排序publicstaticvoidbubbleSor
C++语言标准 Shy_tom C++c++
title:C++语言标准description:C++标准C++语言的起源与C语言一样，C++也是在贝尔实验室诞生的，BjarneStroustrup于20世纪80年代在这里开发出了这种语言。用他自己的话来说，“C++主要是为了我的朋友和我不必再使用汇编语言、C语言或者其他现代高级语言来编程而设计的。它的主要功能是可以更方便地编写出好程序，让每个程序员更加快乐”。C++语言标准美国国家标准委
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
Happy-LLM 第二章 Transformer HalukiSan transformer 深度学习人工智能
Transform架构图片来自[Happy-llm](happy-llm/docs/chapter2/第二章Transformer架构.mdatmain·datawhalechina/happy-llm)，若加载不出来，请开梯子注意力机制前馈神经网络每一层的神经元都与上下两层的每一个神经元完全连接数据在其中只向前流动，用于处理静态的数据，进行图像识别或者分类，但是该网络没有记忆能力，数据在它里面没
happy-llm 第二章 Transformer架构 weixin_38374194 transformer 深度学习人工智能学习
文章目录一、注意力机制核心解析1.1注意力机制的本质与核心变量1.2注意力机制的数学推导1.3注意力机制的变种实现1.3.1自注意力（Self-Attention）1.3.2掩码自注意力（MaskedSelf-Attention）1.3.3多头注意力（Multi-HeadAttention）二、Encoder-Decoder架构详解2.1Seq2Seq任务与架构设计2.2核心组件解析2.2.1前馈
Nystromformer：一种基于 Nyström 方法的自注意力近似算法 AI专题精讲 Paper阅读人工智能自然语言处理 AI
1.摘要Transformer已经成为广泛自然语言处理任务中的强大工具。推动Transformer展现出卓越性能的一个关键组件是self-attention机制，它对每个token编码了其他token的影响或依赖关系。虽然self-attention机制具有诸多优势，但其在输入序列长度上的二次复杂度限制了其在较长序列上的应用——这是当前社区积极研究的一个主题。为了解决这一限制，我们提出了Nystr
ASP.NET MVC 与 ASP.NET Core MVC：架构演进与技术对比
在当今数字化时代，构建高效、可扩展且易于维护的Web应用程序已成为开发人员的核心任务之一。ASP.NETMVC和ASP.NETCoreMVC作为微软在Web开发领域的两大重要框架，为开发者提供了强大的工具来实现这一目标。然而，随着技术的不断演进，这两个框架在设计理念、架构、性能以及生态系统等方面存在着显著差异。对于开发者来说，理解它们之间的区别至关重要，这不仅有助于选择适合项目的框架，还能提升开发
线程的礼让和加入爱吃小土豆豆豆豆 java 开发语言
1、线程的礼让是一种让当前正在执行的线程主动暂停、并允许其他具有相同优先级的线程获取CPU执行权的机制。这种机制可以帮助线程间更公平地共享CPU资源，但它并不保证一定会让出执行权。Thread.yield()是一个静态方法，用于提示线程调度器当前线程愿意让出CPU执行权。但调度器可以选择忽略这个提示。Thread.yield();注意事项不保证切换：yield()只是建议线程调度器切换线程，但调度
007__C++的三大特性 Bardb C++c++qt
一、C++的三大特性封装、继承、多态封装：即将一个对象的属性和行为封装成类，使其更符合人们对于一件事件的认知，将属于这个对象的所有东西打包在一起。继承：是面向对象编程使代码可以复用的最重要的手段，它可以让程序员在原有类的特性上进行扩展，增加功能，这样产生的类叫做派生类，呈现出面向对象设计的层次结构，由简单的基类到复杂的派生类的这么一个过程。多态：字面意思就是多种形态。指同一个函数作用在不同的对象时
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
【AI】大语言模型（LLM）& NLP G皮T #大语言模型 LLM NLP 大模型大语言模型 AI 人工智能
大语言模型（LLM）&NLP1.大语言模型（LLM）1.1一句话解释1.2更形象的比喻1.3为什么叫“大”模型1.4它能做什么1.5现实中的例子2.对比NLP2.1用“汽车进化”比喻NLP→LLM2.2为什么说LLM属于NLP2.3LLM的“革命性突破”在哪里2.4总结1.大语言模型（LLM）1.1一句话解释大语言模型（LargeLanguageModel，LLM）是一个“超级文字预测器”，它通过
性能更优越的国产替代电源模块 —— GC4644N 上海宸屿电子嵌入式硬件
近期印巴冲突再度升级，这场自1971年以来最严重的军事对抗在2025年5月全面爆发，印度与巴基斯坦在克什米尔地区展开激烈交火。这场冲突不仅搅动南亚地缘格局，更意外成为中国高科技装备的实战检验场——中国援巴战机搭载的新型雷达系统凭借卓越性能，使导弹精准度与射程大幅提升，令印度空军措手不及。在此背景下，雷达系统的供电稳定性成为决定战场胜负的关键要素。作为雷达系统的"动力心脏"，电源管理模块的性能直接影
国产CYD7616与AD7616的关键性能对比
AD7616作为业界标杆，以其16位分辨率、16通道同步采样及准同步采样技术，在电力监控、工业自动化等领域占据重要地位。然而，全球供应链压力与对成本可控、自主可控的需求，催生了高性能国产替代方案的迫切需求。上海宸屿电子推出的CYD7616，凭借PintoPin兼容性与关键性能提升，成为替代AD7616的强竞争力选择。基于此，将CYD7616与AD7616的关键性能进行对比分析：参数类别CYD761
25.06.3日报：nodejs为什么这么大龙泉寺扫地僧前端 javascript 开发语言
最近我的mini-electron加上nodejs后，徒然增大了16M左右，很诧异。因为nodejs本身的c++代码应该就2M，再加那些js也就1M，怎么会增大这么多。经过毛利大师推荐的sizebench查看pdb后，发现原来是nodejs现在自带了一个名为Amaro的ts解析器，居然是个5M的wasm文件。考虑到electron模式基本不会用到ts的解析器，这块可以砍了。
标题: 探索Electron与SQLite的完美融合——一个高效应用开发框架倪澄莹George
标题:探索Electron与SQLite的完美融合——一个高效应用开发框架去发现同类优质开源项目:https://gitcode.com/项目介绍在当今快速发展的软件行业中，跨平台应用程序的需求日益增长。为了满足这一需求，我们向您推荐一款强大且灵活的开源项目，它不仅能够帮助开发者轻松创建跨平台桌面应用，还能实现数据存储与通信功能的高度集成。该项目专注于Electron框架的应用与扩展，尤其强调了如
科比投篮预测——数据处理与分析 Ssaty. python 机器学习数据挖掘
第1关：数据清洗importnumpyasnpimportpandasaspdimportwarningswarnings.filterwarnings("ignore")pd.set_option('display.max_columns',1000)pd.set_option(<
Python 爬虫实战：从新闻网站抓取数据并进行情感分析，揭示舆情趋势
随着信息时代的发展，新闻内容的获取和情感分析变得越来越重要。在日常生活中，新闻不仅影响公众的观点和情感，还能反映出社会的舆情变化。如何从大量新闻中获取有价值的信息，并进行情感分析，为舆情监测、品牌管理、市场预测等提供支持，成为了许多企业和个人的需求。本文将以Python爬虫为基础，展示如何从新闻网站抓取数据，并进行情感分析。我们将重点介绍如何使用爬虫抓取新闻数据、如何分析新闻情感，以及如何根据情感
《Java修仙传：从凡胎到码帝》第二章：数组迷宫与算法神通
【大道至简，数组为基】修仙界自古流传一句话：“一维数组筑基，二维数组结丹，三维数组可窥天道！”然而，万千修士终其一生，却连最简单的int[]arr=newint[5];都写不明白，更别提在斗法时精准计算索引，稍有不慎，便是“ArrayIndexOutOfBoundsException”（数组越界）走火入魔，身死道消！而今，韩小码初入码农境二层，体内灵气虽能运转，却尚未真正掌握“数据结构”的奥义。若
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
AABB包围盒和OBB包围盒区别哈市雪花图形学 AABB OBB 包围盒图形学 boundingbox
1.问题图形学中经常出现AABB包围盒、OBB包围盒、包围球等，这些概念初次接触时有点容易混淆；2.概念AABB：Axis-AlignedBoundingBox，轴对齐包围盒;OBB：OrientedBoundingBox，有向包围盒；包围球：外接球；OBB比包围球和AABB更加逼近物体，能显著减少包围体的个数3.其他类似的概念还有凸包、最小外接轮廓等，有兴趣的可以查阅相关资料。
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！

导读

背景

Method

Rethinking Hybrid Transformer Network

Token Mixers vs. Feed Forward Network

Search Space Refinement

MHSA Improvements

Attention on Higher Resolution

Attention Downsampling

EfficientFormerV2

Design of EfficientFormerV2

Jointly Optimizing Model Size and Speed

Search Objective

Search Space and SuperNet

Search Algorithm

实验

总结

你可能感兴趣的:(震惊！| EfficientFormerV2：Transformer居然还能比MobileNet还快更准！)