羞儿

【读点论文】Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

Abstract

由于复杂的注意力机制和模型设计，大多数现有的视觉transformer（ViT）在现实的工业部署场景（如TensorRT和CoreML）中不能像卷积神经网络（CNN）那样高效地执行。这提出了一个明显的挑战：视觉神经网络能否设计得像CNN一样快速推断，并像ViT一样强大？
在这些工作中，提出了一种用于在现实工业场景中高效部署的下一代视觉transformer，即next ViT，从延迟/准确性权衡的角度来看，它主导了CNN和ViT。下一个卷积块（NCB）和下一个transformer块（NTB）分别被开发用于利用部署友好机制捕获本地和全局信息。
然后，下一个混合策略（NHS）被设计为以高效的混合模式来堆叠NCB和NTB，从而提高各种下游任务的性能。大量实验表明，Next ViT在各种视觉任务的延迟/准确性权衡方面显著优于现有的CNN、ViT和CNN Transformer混合架构。
在TensorRT上，Next ViT在COCO检测上超过ResNet 5.5 mAP（从40.4到45.9），在ADE20K分割上超过7.7%mIoU（从38.8%到46.5%），延迟时间相似。同时，它实现了与CSWin相当的性能，而推理速度加快了3.6倍。在CoreML上，Next ViT在COCO检测上超过EfficientFormer 4.6 mAP（从42.6到47.2），在ADE20K分割上超过3.5%mIoU（从45.1%到48.6%）。
本文的代码和模型公开于： https://github.com/bytedance/Next-ViT
来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer，即 Next-ViT。Next-ViT 能像 CNN 一样快速推断，并有 ViT 一样强大的性能。
Next-ViT 的研究团队通过开发新型的卷积块（NCB）和 Transformer 块（NTB），部署了友好的机制来捕获局部和全局信息。然后，该研究提出了一种新型混合策略 NHS，旨在以高效的混合范式堆叠 NCB 和 NTB，从而提高各种下游任务的性能。

Introduction

由于复杂的注意力机制和模型设计，大多数现有的视觉 Transformer（ViT）在现实的工业部署场景中不能像卷积神经网络（CNN）那样高效地执行。这就带来了一个问题：视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大？
最近，视觉transformer（ViT）在工业界和学术界受到了越来越多的关注，并在各种计算机视觉任务中取得了很大的成功，如图像分类、对象检测、语义分割等。然而，从真实世界部署的角度来看，CNN仍然主导着视觉任务，因为ViT通常比经典CNN（例如ResNets）慢得多。
有一些因素限制了Transformer模型的推理速度，包括与多头自我注意（MHSA）机制的令牌长度有关的二次复杂性、不可折叠的LayerNorm和GELU层、复杂的模型设计导致频繁的内存访问和复制等。
许多作品都在努力将ViT从高延迟困境中解放出来。例如，Swin Transformer和PVT试图设计更有效的空间注意力机制，以缓解MHSA二次增长的计算复杂性。其他人[Coatnet，Efficientformer，Mobilevit]考虑将有效的卷积块和强大的Transformer块相结合，以设计CNN-Transformer混合架构，从而在准确性和延迟之间获得更好的折衷。
巧合的是，几乎所有现有的混合架构都在浅级采用卷积块，而在最后几级只堆叠Transformer块。然而，本文观察到，这种混合策略很容易导致下游任务（例如分割和检测）的性能饱和。此外，本文发现现有工作中的卷积块和transformer块不能同时具有效率和性能的特性。尽管与Vision Transformer相比，精度-延迟权衡得到了改善，但现有混合架构的总体性能仍远不能令人满意。
为了解决上述问题，本工作开发了三个重要组件来设计高效的视觉transformer网络。首先，介绍了下一个卷积块（NCB），它能够通过一种新的部署友好型多头卷积注意力（MHCA）熟练地捕获视觉数据中的短期依赖信息。
其次，构建了下一个transformer块（NTB），NTB不仅是捕获长期依赖信息的专家，而且还可以作为一个轻量级的高低频信号混频器来增强建模能力。最后，设计了下一个混合策略（NHS），以在每个阶段以新的混合模式堆叠NCB和NTB，这大大减少了Transformer块的比例，并在各种下游任务中保持了视觉Transformer网络的高精度。
基于以上提出的方法，本文提出了用于现实工业部署场景的下一代视觉transformer（缩写为next ViT）。在本文中，为了进行公平的比较，提供了一种将特定硬件上的延迟视为直接效率反馈的视图。TensorRT和CoreML分别代表服务器端和移动端设备的通用和易于部署的解决方案，有助于提供令人信服的面向硬件的性能指导。通过这种直接和准确的指导，重新绘制了下图中几种现有竞争模型的准确性和延迟权衡图。
- Next-ViT和高效网络之间的准确性-延迟权衡比较。
如上图（a）（d）所示，Next ViT在ImageNet-1K分类任务中实现了最佳的延迟/准确性权衡。更重要的是，Next ViT在下游任务上显示出更显著的延迟/准确性权衡优势。如上图（b）（c）所示，在TensorRT上，Next ViT在COCO检测方面的表现优于ResNet 5.5 mAP（从40.4到45.9），在ADE20K分割方面的表现为7.7%mIoU（从38.8%到46.5%）。
Next ViT的性能与CSWin相当，而推理速度提高了3.6倍。如上图（e）（f）所示，在CoreML上，Next ViT在COCO检测上超过了EfficientFormer 4.6 mAP（从42.6到47.2），在ADE20K分割上超过了3.5%mIoU（从45.1%到48.6%）。
本文的主要贡献总结如下：
- 本文开发了强大的卷积块和变压器块，即NCB和NTB，具有部署友好的机制。接下来，ViT将NCB和NTB叠加在一起，构建先进的CNNtransformer混合架构。
- 本文从一个新的视角设计了一个创新的CNN Transformer混合策略，以提高性能和效率。
- 本文介绍Next ViT，一个强大的视觉transformer架构家族。大量实验证明了Next ViT的优势。它在TensorRT和CoreML上实现了图像分类、对象检测和语义分割的SOTA延迟/准确性权衡。

Related Work

Convolutional Networks.

在过去的十年中，卷积神经网络（CNN）在各种计算机视觉任务中主导了视觉架构，包括图像分类、对象检测和语义分割。ResNet使用残差连接来消除网络退化，确保网络构建得更深，并能够捕获高级抽象。DenseNet交替增强特征重用，并通过密集连接连接特征图。MobileNets引入深度卷积和点卷积来构建具有小内存和低延迟的模型。ShuffleNet采用分组逐点卷积和信道混洗来进一步降低计算成本。ShuffleNetv2提出，网络架构设计应考虑速度等直接指标，而不是FLOP等间接指标。ConvNeXt审查了视觉transformer的设计，并提出了一种纯CNN模型，该模型可以在多个计算机视觉基准上与SOTA分层视觉transformer进行竞争，同时保持标准CNN的简单性和效率。
ResNet 提出的 BottleNeck 块因其固有的归纳偏差和部署而在视觉神经网络中长期占据主导地位。大多数硬件平台的友好特性。包括多头自注意力(MHSA)机制其复杂度与Token长度呈二次关系、不可融合的LayerNorm和GELU层、复杂模型设计导致频繁的内存访问和复制等因素限制了ViTs模型的推理速度。

Vision Transformers.

Transformer首先在自然语言处理（NLP）领域提出。ViT将图像分割为多个块，并将这些块视为文字来进行自我关注，这表明Transformer在各种视觉任务中也取得了令人印象深刻的表现。DeiT介绍了一种针对transformer的师生策略。T2T ViT引入了一种新的令牌到令牌（T2T）过程，以逐步将图像令牌化为令牌，并在结构上聚合令牌。Swin Transformer提出了一种通用的Transformer主干，该主干构建分层特征图，并具有与图像大小线性的计算复杂度。PiT在ViT中加入了池化层，并通过大量实验表明，这些优势可以很好地与ViT协调。如今，研究人员更加注重效率，包括高效的自我关注、训练策略、金字塔设计等。

Hybrid Models.

最近的工作[Cmt: Convolutional neural networks meet vision transformers，Effi-
cientformer，Mobilevit，Bottleneck transformers for visual recognition，Cvt，Understanding the robustness in vision transformers]表明，将卷积和Transformer结合为混合架构有助于吸收两种架构的优势。BoTNet在ResNet的最后三个瓶颈块中用全局自我关注替换空间卷积。CvT在自我注意前面引入了深度和点卷积。CMT提出了一种新的基于transformer的混合网络，它利用transformer来捕获长距离依赖关系，并利用CNN来建模局部特征。在MobileViT中，介绍了一种用于移动设备的轻型通用视觉转换器。Mobile Former结合所提出的轻量级交叉注意力来建模桥梁，这不仅计算效率高，而且具有更大的表示能力。EfficientFormer符合尺寸一致的设计，能够平滑地利用硬件友好的4D MetaBlock和功能强大的3D MHSA块。在本文中，设计了一系列更适合实际工业场景的Next ViT模型。

Methods

在本节中，首先演示了建议的Next ViT的概述。然后，讨论了Next ViT中的一些核心设计，包括Next Convolution Block（NCB）、Next Transformer Block（NTB）和Next Hybrid Strategy（NHS）。此外，还提供了不同模型大小的架构规范。

Overview

展示了如下图所示的Next ViT。按照惯例，Next ViT遵循分层金字塔结构，每个阶段都配备了补丁嵌入层和一系列卷积或Transformer块。空间分辨率将逐渐降低32×，而通道尺寸将在不同阶段扩展。
- 左栏是Next ViT的整体分层架构。中间列是下一个卷积块（NCB）和下一个变压器块（NTB）。右栏是多头卷积注意力（MHCA）、高效多头自我注意力（E-MHSA）和优化的MLP模块的详细可视化。
- Next-ViT 遵循分层金字塔架构，在每个阶段配备一个 patch 嵌入层和一系列卷积或 Transformer 块。空间分辨率将逐步降低为原来的 1/32，而通道维度将按阶段扩展。
在本章中，首先深入设计信息交互的核心块，并分别开发强大的NCB和NTB来建模视觉数据中的短期和长期依赖关系。局部和全局信息的融合也在NTB中执行，这进一步增强了建模能力。最后，系统地研究了卷积和Transformer块的集成方式。为了克服现有方法的固有缺陷，引入了下一个混合策略，该策略将创新的NCB和NTB叠加在一起，以构建先进的CNN与transformer混合架构。
研究者首先深入设计了信息交互的核心模块，并分别开发强大的 NCB 和 NTB 来模拟视觉数据中的短期和长期依赖关系。NTB 中还进行了局部和全局信息的融合，进一步提高了建模能力。最后，为了克服现有方法的固有缺陷，该研究系统地研究了卷积和 Transformer 块的集成方式，提出了 NHS 策略，来堆叠 NCB 和 NTB 构建新型 CNN-Transformer 混合架构。

Next Convolution Block (NCB)

为了展示所提出的NCB的优越性，首先回顾了卷积块和transformer块的一些经典结构设计，如下图所示。ResNet提出的瓶颈块由于其固有的电感偏差和大多数硬件平台中的部署友好特性，在视觉神经网络中长期占据主导地位。
- 不同的基于transformer和基于卷积的块的比较。
不幸的是，与transformer块相比，瓶颈块的有效性不足。ConvNeXt块通过模仿transformer块的设计使瓶颈块现代化。虽然ConvNeXt块部分提高了网络性能，但其在TensorRT/CoreML上的推理速度受到效率低下的组件的严重限制，如7×7深度卷积、LayerNorm和GELU。
Transformer块在各种视觉任务中取得了优异的成绩，其内在优势由MetaFormer的范例和基于注意力的令牌混合器模块共同赋予。然而，Transformer块的推理速度比BottleNeck块慢得多，因为其复杂的注意力机制，这在大多数现实的工业场景中是无法承受的。
为了克服上述块的缺点，引入了下一个卷积块（NCB），它保持了瓶颈块的部署优势，同时获得了transformer块的突出性能。如上图（f）所示，NCB遵循MetaFormer的一般架构，该架构被验证为transformer块的关键。同时，一个高效的基于注意力的令牌混合器也同样重要。本文设计了一种新型的多头卷积注意力（MHCA），作为一种具有部署友好卷积操作的高效令牌混合器。最后，在MetaFormer的范式中构建了具有MHCA和MLP层的NCB。建议的NCB可以制定如下：
- $\bar{z}^l=MHCA(z^{l-1})+z^{l-1},(1)\\ z^l=MLP(\bar{z}^l)+\bar{z^l}$
- 其中zl−1表示来自l− 1的输入块、~zl和zl是MHCA和l NCB的输出。将在下一节详细介绍MHCA。
Multi-Head Convolutional Attention (MHCA)
- 为了将现有的基于注意力的token mixer从高延迟困境中解放出来，设计了一种具有高效卷积运算的新型注意力机制，即卷积注意力（CA），以提高推理速度。
- 同时，受MHSA中有效的多头设计的启发，利用多头范式构建了本文的卷积注意力，该范式共同关注来自不同位置的不同表示子空间的信息，以实现有效的局部表示学习。本文提出的的多头卷积注意力（MHCA）的定义可概括如下：
- $MHCA(z)=Concat(CA_1(z_1),CA_2(z_2),...CA_h(z_h))W^P,(2)$
- 这里，MHCA从h个并行表示子空间捕获信息。z＝[z1，z2，…，zh]表示在通道维度上将输入特征z分成多头部形式。为了促进多个头之间的信息交互，还为MHCA配备了投影层（WP）。CA是单头卷积注意力，可定义为：
- $CA(z)=O(W,(T_m,T_n)),where~T_{\{m,n\}}\in z,(3)$
- 其中Tm和Tn是输入特征z中的相邻标记。O是具有可训练参数W和输入标记T{m，n}的内积运算。CA能够通过迭代优化可训练参数W来学习局部感受野中不同标记之间的亲和力。具体而言，MHCA的实现是通过组卷积（多头卷积）和点卷积来实现的，如上图（f）所示。为了在TensorRT上使用各种数据类型实现快速推理速度，将所有MHCA中的头部亮度统一设置为32。此外，在NCB中采用了高效的BatchNorm（BN）和ReLU激活函数，而不是传统Transformer块中的LayerNorm（LN）和GELU，这进一步加快了推理速度。消融研究中的实验结果表明，NCB与现有块（如瓶颈块、ConvNext块、LSA块等）相比具有优越性。

Next Transformer Block (NTB)

尽管通过NCB有效地了解了局部特征代表性，但获取全局信息的问题亟待解决。transformer块具有很强的捕捉低频信号的能力，这些低频信号提供了全局信息（例如全局形状和结构）。然而，相关研究观察到，transformer块可能会在一定程度上恶化高频信息，如局部纹理信息。不同频率段中的信号在人类视觉系统中是必不可少的，并且将以某种特定的方式融合，以提取更重要和独特的特征。
在这些观察的激励下，本文开发了下一个transformer块（NTB），以在轻量化机制中捕获多频率信号。此外，NTB作为一个有效的多频信号mixer，进一步增强了整体建模能力。如图【整体分层架构】所示，NTB首先使用高效的多头部自我注意（E-MHSA）捕获低频信号，其可以描述为：
- $E-MHSA(z)=Concat(SA_1(z_1),SA_2(z_2),...SA_h(z_h))W^P,(4)$
- 其中z＝[z1，z2，…，zh]表示在通道维度上将输入特征z划分为多头部形式。SA是一种空间约简自关注算子，其灵感来自线性SRA，其表现为：
- $SA(X)=Attention(X,W^Q,P_s(X·W^K),P_s(X·W^V)),(5)$
- 其中，注意力表示标准注意力，计算为注意力（Q，K，V）=softmax（QKT-dk）V，其中dk表示缩放因子。WQ、WK、WV是用于上下文编码的线性层。Ps是具有步幅s的平均池操作，用于在注意力操作之前对空间维度进行下采样以降低计算成本。具体而言，本文观察到E-MHSA模块的时间消耗也受到其信道数量的极大影响。因此，NTB利用逐点卷积在E-MHSA模块之前执行信道维度缩减，以进一步加速推断。为了减少信道，引入了收缩比r。还利用E-MHSA模块中的批量规范化来实现极其高效的部署。
- 此外，NTB配备了MHCA模块，该模块与E-MHSA模块协作以捕获多频信号。之后，来自E-MHSA和MHCA的输出特征被级联以混合高低频信息。最后，在最后借用MLP层来提取更基本和独特的特征。简言之，NTB的实施可以制定如下：
- $\bar{z^l}$
- 其中~zl、ˆzl和zl分别表示E-MHSA、MHCA和NTB的输出。Proj表示信道投影的逐点卷积层。此外，NTB统一采用BN和ReLU作为有效的范数和激活层，而不是LN和GELU。与传统的Transformer块相比，NTB能够在轻量级机制中捕获和混合多频率信息，这大大提高了模型性能。

Next Hybrid Strategy (NHS)

最近的一些工作付出了巨大努力，将CNN和Transformer结合起来，以实现高效部署。如下图（b）（c）所示，它们几乎都在浅层中单调地采用卷积块，在最后一个或两个阶段中仅堆叠Transformer块，这在分类任务中提供了有效的结果。
- Comparison of traditional hybrid strategies and NHS.
不幸的是，观察到，这些传统的混合策略在下游任务（例如分割和检测）上很容易达到性能饱和。原因是，分类任务仅使用最后阶段的输出进行预测，而下游任务（例如分割和检测）通常依赖于每个阶段的特征来获得更好的结果。
然而，传统的混合策略只是在最后几个阶段堆叠Transformer块。因此，浅阶段无法捕获全局信息，例如对象的全局形状和结构，这对于分割和检测任务至关重要。
为了克服现有混合策略的失败，本文从新的角度提出了下一个混合策略（NHS），该策略创造性地将卷积块（NCB）和transformer块（NTB）与（N+1）叠加在一起∗ L混合范式。
NHS在控制transformer块的比例以实现高效部署的情况下，显著提高了下游任务中的模型性能。首先，为了赋予浅级捕获全局信息的能力，提出了一种新的（NCB×N+NTB×1）模式混合策略，如上图（d）所示，该策略在每个级中依次堆叠N个NCB和一个NTB。
具体而言，Transformer块（NTB）放置在每个阶段的末尾，这使模型能够学习浅层中的全局表示。本文进行了一系列实验来验证所提出的混合策略的优越性。差分混合策略的性能如下表所示。
- 不同混合策略的比较。Cls表示ImageNet-1K分类任务。Det表示使用掩码RCNN 1×。Seg表示在ADE20K数据集上具有语义FPN 80k的分割任务。TensorRT延迟是以8×3×224×224的输入大小均匀测量的。
C表示在一个阶段中均匀堆叠卷积块（NCB），T表示用transformer块（NTB）一致构建一个阶段。特别地，HN表示在相应阶段以（NCB×N+NTB×1）图案堆叠NCB和NTB。上表中的所有型号都配备了四级。
例如，C C C表示在所有四个阶段中始终使用卷积块。为了公平比较，在相似的TensorRT延迟下构建了所有模型。第4节介绍了更多的实现细节。如上表所示，与下游任务中的现有方法相比，所提出的混合策略显著提高了模型性能。
C HN HN实现了最佳的整体性能。例如，C HN HN在检测方面超过C C T 0.8 mAP，在分割方面超过0.8%mIoU。此外，HN-HN-HN的结果表明，将transformer块放置在第一阶段将恶化模型的等待时间精度权衡。
本文通过增加第三阶段的块数，如ResNet，进一步验证了C HN HN HN在大模型上的总体有效性。下表中前三行的实验结果表明，大型模型的性能很难提高，并逐渐达到饱和。这种现象表明，通过扩大（NCB×N+NTB×1）模式的N来扩展模型大小，即简单地添加更多卷积块不是最佳选择。
- NHS中不同模式的比较和不同超参数配置的探索。S1、S2、S3和S4分别表示阶段1、阶段2、阶段3和阶段4。
这也意味着（NCB×N+NTB×1）模式中的N值可能会严重影响模型性能。因此，开始通过大量实验探索N值对模型性能的影响。如上表（中间）所示，在第三阶段构建了N的不同配置的模型。为了建立具有相似延迟的模型以进行公平比较，当N的值很小时，堆叠L组（NCB×N+NTB×1）模式。令人惊讶的是，发现（NCB×N+NTB×1）×L模式中的堆栈NCB和NTB与（NCB x N+NTC×1）模式相比实现了更好的模型性能。
这表明，以适当的方式（（NCB×N+NTB×1））重复组合低频信号提取器和高频信号提取机会导致更高质量的表示学习。如上表所示，第三阶段N=4的模型在性能和延迟之间实现了最佳平衡。在第三阶段通过放大（NCB×4+NTB×1）×L模式的L来进一步构建更大的模型。
如上表（底部）所示，与小模型相比，Base（L=4）和Large（L=6）模型的性能显著提高，这验证了所提出的（NCB×N+NTB×1）×L模式的总体有效性。在本文的其余部分中，使用N=4作为基本配置。、
本文将NCB和NTB与上述下一个混合策略叠加，以构建下一个ViT，其正式定义为：
- $N e x t - V i T (X) =$
- 其中 i∈ （1，2，3，4）表示阶段索引。Ψ表示NCB。Γ表示i=1时的身份层，否则为NTB。最后，H表示按顺序堆叠级的操作。

Next-ViT Architectures

为了与现有的SOTA网络进行公平的比较，提出了三种典型的变体，即Next ViTS/B/L。架构规范列于下表中，其中C表示输出通道，S表示每个阶段的步幅。此外，NTB中的信道收缩比r被均匀地设置为0.75，E-MHSA中的空间缩减比s在不同阶段为[8，4，2，1]。MLP层的膨胀比分别设置为NCB的3和NTB的2。E-MHSA和MHCA中的头部尺寸设置为32。对于标准化层和激活功能，NCB和NTB都使用BatchNorm和ReLU。
- Detailed configurations of Next-ViT variants.

Experimental Results

ImageNet-1K Classification

Implementation

在ImageNet-1K上进行了图像分类实验，其中包含约1.28M个训练图像和来自1K个类别的50K个验证图像。为了进行公平的比较，遵循了最近的视觉transformer[Twins，Sepvit，Pyramid vision transformer，Scalablevit]的训练设置，并进行了细微的更改。具体而言，所有Next-ViT变体都在8个V100 GPU上训练了300个epoch，总批量大小为2048。输入图像的分辨率调整为224×224。采用AdamW作为优化器，权重衰减为0.1。学习速率基于余弦策略逐渐衰减，初始化2e-3，并对所有NextViT变体使用20个epoch的线性预热策略。此外，还采用了增加的随机深度增加，Next-ViT-S/B/L的最大跌落路径速率为0.1、0.2、0.2。
根据SSLD，在大规模数据集上训练带有†的模型。对于384×384的输入大小，微调了30个epoch的模型，权重衰减为1e-8，学习率为1e-5，批量大小为1024。输入大小对应于相应的方法，下表中的延迟是基于TensorRT-8.0.3框架（T4 GPU（批量大小=8）和CoreML框架（iPhone12 Pro Max和iOS 16.0（批量大小=1））统一测量的。请注意，iPhone 12和iPhone 12 Pro Max都配备了相同的A14处理器。
- 比较ImageNet-1K分类的不同最新方法。CoreML不支持HardSwish，∗ 表示本文将其替换为GELU以进行公平比较。†表示使用大规模数据集遵循SSLD。

Comparison with State-of-the-art Models

如上表所示，与最新的技术方法（如CNN、ViT和混合网络）相比，在准确性和延迟之间实现了最佳权衡。具体而言，与ResNet101等著名CNN相比，Next-ViT-S在TensorRT上的延迟相似，在CoreML上的速度更快（从4.0ms到3.5ms），准确性提高了1.7%。
同时，NextViTL实现了与EfficientNet-B5和ConvNeXt-B类似的准确性，而在Tensor RT上的速度是4.0倍和1.4倍，在Core ML上是3.2倍和44倍。就高级ViT而言，Next-ViT-S在TensorRT上的推理速度快1.3倍，比Twins-SVT-S[3]快0.8%。
Next-ViT-B超过CSwin-T，0.5%，而推理延迟在TensorRT上压缩了64%。最后，与最近的混合方法相比，Next-ViT-S在TensorRT和CoreML上以1.8倍和1.4倍的速度超过CMT-XS 0.7%。与EfficientFormer-L7相比，Next-ViT-L预测在CoreML上的运行时间减少20%，在TensorRT上的运行时减少25%，同时性能从83.3%提高到83.6%。
Next-ViT-L还获得了15%的推理延迟增益，并实现了比TRTViT-D更好的性能。这些结果表明，所提出的NextViT设计是一种有效且有前景的范例。

ADE20K Semantic Segmentation

Implementation

为了进一步验证本文的Next ViT的能力，对ADE20K进行了语义分割实验，其中包含来自150个类别的大约20K个训练图像和2K个验证图像。为了进行公平的比较，还遵循了先前视觉transformer在语义FPN和UperNet框架上的训练惯例。
大多数模型在ImageNet-1k上进行了预训练，带有†的模型在大规模数据集上进行了预先训练。所有模型都以分辨率224×224进行预训练，然后在输入大小为512×512的ADE20K上进行训练。对于语义FPN框架，采用AdamW优化器，学习率和权重衰减均为0.0001。然后，基于Next-ViT-S/B/L的随机深度0.2，以总批大小32为基础，对整个网络进行40K次迭代的训练。
为了在UperNet框架上进行训练和测试，还训练了160K次迭代的模型，随机深度为0.2。AdamW优化器也被使用，但学习率为6×10−5，总批量16，重量衰减0.01。然后，基于单尺度和多尺度（MS）测试mIoU，其中尺度从0.5到1.75，间隔为0.25。
对于检测和分割任务，由于Mask R-CNN和Upernet中的某些模块不容易部署在TensorRT和CoreML上，仅测量主干的延迟，以进行公平比较，使用与分类相同的测试环境。为了简单起见，512×512的输入大小统一用于测量下表中的延迟。
- ADE20K语义分割任务中不同骨干的比较。FLOP的输入大小为512×2048。†表示训练语义FPN-80K，用于80K次迭代，总批大小为32，与常规设置相比，是2×训练数据迭代。†表明该模型是在大规模数据集上预先训练的。
- 基于Mask R-CNN的对象检测和实例分割任务中不同骨干的比较。以800×1280的inpus大小测量FLOP。上标b和m表示框检测和掩码实例分割。

Comparison with State-of-the-art Models

在上表中，还与CNN、ViT和最近的混合方法进行了比较。Next-ViT-S分别超过ResNet101和ResNeXt101-32x4d 7.7%和6.8%mIoU。Next-ViT-B比CSwin-T快0.4%mIoU，推理速度在TensorRT上加快了2.5倍。与Uniformer-S/B相比，Next-ViT-B/L实现了2.0%和1.1%的mIoU性能增益，而CoreML和TensorRT分别快0.4×/1.3倍和0.8×/1.6倍。
Next-ViT-B在类似的CoreML运行时间下超过EfficientFormerL7 3.5%mIoU，在TensorRT上的延迟减少38%。就UperNet框架而言，Next-ViT-S超越了最近的SOTA CNN模型ConvNeXt 2.3%MS mIoU，而在TensorRT和CoreML上分别快1.0倍和18.0倍。与CSWin-S相比，Next-ViT-L在TensorRT上实现了3.6倍的速度，性能相似。广泛的实验表明，本文的Next ViT在分割任务中具有优异的潜力。

Object Detection and Instance Segmentation

Implementation

接下来，使用COCO2017基于Mask R-CNN框架，评估Next ViT在目标检测和实例分割任务上的表现。具体而言，本文的所有模型都在ImageNet-1K上进行了预训练，然后根据先前工作的设置进行微调。对于12个周期（1×）实验，使用了权重衰减为0.05的AdamW优化器。在训练过程中，热身有500次迭代，在第8和第11阶段，学习率将下降10倍。基于多尺度（MS）训练的36个阶段（3倍）实验，使用调整大小的图像对模型进行训练，以使较短的边从480到800，较长的边最多为1333。在第27和第33阶段，学习速度将下降10×。其他设置与1×相同。

Comparison with State-of-the-art Models

上表显示了Mask R-CNN框架的评估结果。根据1×时间表，Next-ViT-S超过ResNet101和ResNeSt50 5.5 APb和3.3 APb。Next-ViT-L比PVTv2-B4快0.5 APb，在TensorRT和CoreML上预测运行速度分别快4.0倍和3.9倍。与EfficientFormer-L7相比，Next-ViT-B以相似的CoreML延迟和39%的TensorRT运行时间将APb从42.6提高到47.2。
NextViT-B优于TRT-ViT-D 1.9 APb，但在TensorRT和CoreML上仍然更快。基于3×时间表，Next ViT显示出与1×相同的优势。具体来说，Next-ViT-S以5.2 APb的延迟超过了ResNet101，具有相似的延迟。与Twins-SVT-S相比，NextViT-S的性能提高了1.2 APb，但在TensorRT上的速度提高了3.2倍。Next-ViT-B的预测时间比CSwinT快0.5 APb，但预测时间少2.5倍。对于Next-ViT-L，它在对象检测和实例分割方面表现出与CSwin相似的性能，但推理速度加快了79%。

Ablation Study and Visualization

为了更好地理解本文的Next ViT，通过评估其在ImageNet-1K分类和下游任务上的性能来消融每个关键设计。还可视化了输出特征的傅里叶光谱和热图，以显示Next ViT的内在优势。

Impact of Next Convolution Block

为了验证所提出的NCB的有效性，将Next ViT中的NCB替换为著名的块，如ResNet中的瓶颈、ConvNeXt块、Twins中的LSA块等。为了公平比较，一致使用NTB和NHS在TensorRT上的相似延迟下构建不同的模型。
如下表所示，NCB在所有三个任务中实现了最佳的延迟/准确性权衡，这验证了所提出的NCB的优势。例如，NCB在分类方面优于最近的ConvNeXt块[10]2.9%，在检测方面优于4.5APb，在分割方面优于2.8%mIoU。
- Comparison of different convolution blocks.

Impact of Different Shrink Ratios in NTB

此外，探讨了Next ViT块的收缩比r对Next ViT整体性能的影响。如下表所示，减小收缩比r，即e-MHSA模块中的信道数，将减少模型延迟。此外，r=0.75和r=0.5的模型比使用纯transformer的模型（r=1）获得更好的性能。这表明以适当的方式融合多频率信号将增强表示学习的模型能力。
- Comparison of results of different ratios.
特别是，r=0.75的模型实现了最佳的延迟/准确性权衡。它在分类、检测和分割方面优于基线模型（r=1.0），分别为0.4%、0.5APb和1.0%mIoU，同时更轻。上述结果表明了所提出的NTB块的有效性。

Impact of Normalization and Activation

进一步研究了Next ViT中不同归一化层和激活函数的影响。如下表所示，LN和GELU都带来了微不足道的性能改进，但在TensorRT上具有明显更高的推理延迟。另一方面，BN和ReLU在总体任务上实现了最佳的延迟/准确性权衡。因此，在Next ViT中统一使用BN和ReLU，以便在实际工业场景中高效部署。
- Different normalizations and activations comparison.

Visualization

为了验证本文的Next ViT的优越性，在下图（a）中可视化了ResNet、Swin Transformer和Next ViT的输出特征的傅里叶光谱和热图。ResNet的频谱分布表示卷积块倾向于捕获高频信号，而难以关注低频信息。另一方面，ViT擅长捕捉低频信号，但忽略高频信号。最后，Next ViT能够同时捕获高质量和多频信号，这表明了NTB的有效性。

-
- （a） ResNet、Swin和Next ViT的傅里叶光谱。（b） ResNet、Swin和Next ViT输出特征的热图。
此外，如图（b）所示，与ResNet和Swin相比，Next ViT可以捕获更丰富的纹理信息和更准确的全局信息（例如边缘形状），这表明Next ViT具有更强的建模能力。

Conclusion

在本文中，提出了一系列Next ViT，该系列将高效的Next卷积块和Next Transformer块堆叠在一种新的策略中，以构建强大的CNNTransformer混合架构，以便在移动设备和服务器GPU上高效部署。实验结果表明，Next ViT在各种视觉任务（如图像分类、对象检测和语义分割）中实现了最先进的延迟/准确性权衡。在视觉神经网络设计方面，本文的工作在学术研究和工业部署之间建立了一座稳定的桥梁。希望本文的工作将提供新的见解，并促进针对现实工业部署的神经网络架构设计的更多研究。
和更准确的全局信息（例如边缘形状），这表明Next ViT具有更强的建模能力**。

你可能感兴趣的:(论文笔记,transformer,深度学习,人工智能,智能部署)

发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
EMQX 社区版单机和集群部署 pcj_888 MQTT MQTT EMQ
EMQ支持Docker，宿主机，k8s部署；支持单机或集群部署。以下给出EMQX社区版单机和集群部署方法1.Docker单机部署官方推荐最小配置：2核4G下载容器镜像dockerpullemqx/emqx:5.3.2启动容器dockerrun-d--nameemqx\-p1883:1883\-p8083:8083\-p8883:8883\-p8084:8084\-p18083:18083\emqx
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
等保测评中的物联网设备安全评估亿林数据物联网安全网络安全等保测评
随着物联网（IoT）技术的飞速发展，物联网设备已经广泛应用于智能家居、智慧城市、工业自动化等多个领域，极大地提升了社会生产力和生活便利性。然而，随着IoT设备数量的激增，其安全性问题也日益凸显，成为我们必须面对的重要课题。在这一背景下，等级保护（等保）测评中的物联网设备安全评估显得尤为重要，它为我们提供了一个有效的安全评估和管理机制。一、物联网设备安全评估的重要性物联网设备的核心理念是实现物物相连
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET nupkg包的深度解析与安全防护指南深盾科技 .net
在.NET开发领域，nupkg包是开发者们不可或缺的工具。它不仅是代码分发和资源共享的核心载体，还贯穿了开发、构建、部署的全流程。今天，我们将深入探讨nupkg包的核心功能、打包发布流程以及安全防护措施，帮助你在.NET开发中更加得心应手。nupkg包的核心功能nupkg是NuGet包的文件格式，本质上是一个ZIP压缩包，包含编译后的程序集（.dll文件）、调试符号（.pdb文件）、描述文件（.n
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
Java中的Tomcat，开启Web应用腾飞【基础版】
目录一、Tomcat初登场：揭开神秘面纱（一）啥是Tomcat（二）为啥要有Tomcat二、Tomcat的安装与启动：开启第一步（一）下载Tomcat（二）启动Tomcat三、Tomcat的目录结构：探秘内部布局（一）核心目录介绍（二）目录间的协同工作四、部署JavaWeb应用到Tomcat：让应用上线（一）打包Web应用为WAR文件（二）部署WAR文件到Tomcat五、Tomcat的配置优化：让
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
iOS 获取Wifi信息
背景智能硬件入网的时候，硬件端通常需要通过WiFi入网，这种情况，可能需要App获取WiFi信息，来做WiFi匹配，同时也可以减少用户填写的信息。智能硬件WiFi入网方式利用HomeKit流程入网，然后利用Boujour绑定设备App连接硬件WiFi,将有网WiFi的信息通过http或者蓝牙方式发送给硬件（需要用户选择wifi，且可能有网WiFi是硬件不支持的，比如部分硬件不支持5GWiFi）部分
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
面试官：Spring 如何控制 Bean 的加载顺序？
在大多数情况下，我们不需要手动控制Bean的加载顺序，因为Spring的IoC容器足够智能。核心原则：依赖驱动加载SpringIoC容器会构建一个依赖关系图（DependencyGraph）。如果BeanA依赖于BeanB（例如，A的构造函数需要一个B类型的参数），Spring会保证在创建BeanA之前，BeanB已经被完全创建和初始化好了。@ServicepublicclassServiceA{
第47章 Python uWSGI 安装配置教程你得不到的念想 Python python 开发语言 linux
本文主要介绍如何部署简单的WSGI应用和常见的Web框架。以Ubuntu/Debian为例，先install依赖包：apt-getinstallbuild-essentialpython-devPythoninstalluWSGI1、通过pip命令：pipinstalluwsgi2、downloadinstall脚本：curlhttp://uwsgi.it/install|bash-sdefaul
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
不同行业的 AI 数据安全与合规实践：7 大核心要点全解析观熵人工智能 DeepSeek 私有化部署
不同行业的AI数据安全与合规实践：7大核心要点全解析关键词AI数据安全、行业合规、私有化部署、数据分类分级、国产大模型、隐私保护、DeepSeek部署摘要随着国产大模型在金融、医疗、政务、教育等关键领域的深入部署，AI系统对数据安全与行业合规提出了更高要求。本文结合DeepSeek私有化部署实战，系统梳理当前各行业主流的数据安全合规标准与落地策略，从数据分类分级、访问控制、审计追踪到敏感信息识别与
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR