羞儿

【读点论文】EfficientNetV2: Smaller Models and Faster Training 训练感知的神经架构搜索+自适应的渐近训练方法优化训练（TPU，大数据量）

EfficientNetV2: Smaller Models and Faster Training

Abstract

本文介绍了EfficientNetV2，这是一个新的卷积网络系列，与以前的模型相比，具有更快的训练速度和更好的参数效率。为了开发这些模型，本文采用了训练感知的神经结构搜索和缩放的组合，共同优化训练速度和参数效率。这些模型是从富含Fused-MBConv等新操作的搜索空间中搜索出来的。本文的实验表明，EfficientNetV2模型的训练速度比最先进的模型快得多，而体积却小到6.8倍。
本文的训练可以通过在训练过程中逐步增加图像大小来进一步加速，但这往往会导致准确性的下降。为了弥补这种准确性的下降，本文提出了一种改进的渐进式学习方法，它随着图像大小自适应地调整正则化（如数据增量）。
通过渐进式学习，本文的EfficientNetV2在ImageNet和CIFAR/Cars/Flowers数据集上的表现明显优于以前的模型。通过在相同的ImageNet21k上进行预训练，本文的EfficientNetV2在ImageNet ILSVRC2012上达到了87.3%的最高准确率，比最近的ViT的准确率高出2.0%，同时使用相同的计算资源训练速度提高了5-11倍。代码在：automl/efficientnetv2 at master · google/automl (github.com)
论文：[2104.00298] EfficientNetV2: Smaller Models and Faster Training (arxiv.org)
B站UP主[霹雳吧啦Wz]:https://www.bilibili.com/video/BV19v41157AU

Introduction

随着模型规模和训练数据规模越来越大，训练效率对深度学习很重要。例如，GPT-3（Brown等人，2020年），拥有更大的模型和更多的训练数据，展示了少数几个样本学习的显著能力，但它需要数周的训练，有数千个GPU，使得它难以重新训练或改进。
训练效率最近获得了重大关注。例如，NFNets（Brock等人，2021） $\textcolor{blue}{旨在通过去除昂贵的批量归一化来提高训练效率}$ ；最近的几项工作（Srinivas等人，2021）侧重于通过在卷积网络（ConvNets）中添加注意层来提高训练速度；Vision Transformers（Dosovitskiy等人，2021）通过使用Transformer块提高大规模数据集的训练效率。然而，这些方法在大参数规模上往往伴随着昂贵的开销，如下图（b）所示。
- ImageNet ILSVRC2012 top-1 准确率与训练时间和参数的关系
- 标记为21k的模型在ImageNet21k上进行了预训练，而其他模型则直接在ImageNet ILSVRC2012上训练。
- $\textcolor{red}{训练时间是在32个TPU核心下测量的}$ 。所有的EfficientNetV2模型都是通过渐进式学习训练的。本文的EfficientNetV2的训练速度比其他模型快5-11倍，而使用的参数却少了6.8倍。
- 通过上图很明显能够看出EfficientNetV2网络不仅Accuracy达到了当前的SOTA（State-Of-The-Art）水平，而且训练速度更快参数数量更少（ $\textcolor{blue}{比当前火热的Vision~Transformer还要强}$ ）。
- EfficientNetV2-XL (21k)在ImageNet ILSVRC2012的Top-1上达到87.3%。 $\textcolor{green}{在EfficientNetV1中作者关注的是准确率，参数数量以及FLOPs（理论计算量小不代表推理速度快），在EfficientNetV2中作者进一步关注模型的训练速度}$ 。
在本文中，使用训练感知的神经结构搜索（NAS）和缩放的组合来提高训练速度和参数效率。鉴于EfficientNets的参数效率（Tan & Le, 2019a），本文首先系统地研究EfficientNets的训练瓶颈。
研究表明，在EfficientNets中：
- （1）用非常大的图像尺寸进行训练是缓慢的；
  - 训练图像的尺寸很大时，训练速度非常慢。针对这个问题一个比较好想到的办法就是降低训练图像的尺寸，之前也有一些文章这么干过。降低训练图像的尺寸不仅能够加快训练速度，还能使用更大的batch_size.
  - 在之前使用EfficientNet时发现当使用到B3（img_size=300）- B7（img_size=600）时基本训练不动，而且非常吃显存。
- （2）深度卷积在早期层是缓慢的；
  - 在网络浅层中使用Depthwise convolutions速度会很慢。无法充分利用现有的一些加速器（虽然理论上计算量很小，但实际使用起来并没有想象中那么快）。故引入Fused-MBConv结构。
  - Fused-MBConv结构也非常简单，即将原来的MBConv结构主分支中的expansion conv1x1和depthwise conv3x3替换成一个普通的conv3x3。
  - 作者使用NAS技术去搜索MBConv和Fused-MBConv的最佳组合。
- （3）每一个阶段的平等扩展是次优的。
  - 在EfficientNetv1中，每个stage的深度和宽度都是同等放大的。但每个stage对网络的训练速度以及参数数量的贡献并不相同，所以直接使用同等缩放的策略并不合理。在这篇文章中， $\textcolor{red}{作者采用了非均匀的缩放策略来缩放模型}$ ，与V1的差别。
基于这些观察，本文设计了一个富含Fused-MBConv等额外操作的搜索空间，并应用训练感知的NAS和缩放来共同优化模型精度、训练速度和参数大小。本文发现的网络被命名为EfficientNetV2，其训练速度比之前的模型快4倍（下图），而参数大小却小6.8倍。
- TPUv3上的ImageNet准确性和训练步骤时间–步骤时间越短越好；所有模型都是用固定的图像尺寸训练的，没有渐进学习。
本文的训练可以通过在训练过程中逐步增加图像大小来进一步加快训练速度。
以前的许多工作，如渐进式调整大小（Howard，2018）、FixRes（Touvron等人，2019）和Mix&Match（Hoffer等人，2019），在训练中使用了较小的图像尺寸；然而，他们通常对所有图像尺寸保持相同的正则化，导致准确性下降。
本文认为，对不同的图像尺寸保持相同的正则化并不理想：对于同一个网络，小的图像尺寸导致网络容量小，因此需要弱的正则化；反之，大的图像尺寸需要更强的正则化来对抗过拟合。
基于这一见解，本文提出了一种改进的渐进式学习方法：在早期训练时代，用小的图像尺寸和弱的正则化训练网络（例如，dropout and data augmentation），然后逐渐增加图像尺寸并增加更强的正则化。
建立在渐进式调整大小的基础上（Howard，2018），但通过动态调整正则化，本文的方法可以加快训练速度而不会导致准确率下降。
通过改进的渐进式学习，本文的EfficientNetV2在ImageNet、CIFAR-10、CIFAR100、Cars和Flowers数据集上取得了优异的成绩。在ImageNet上，本文达到了85.7%的最高准确率，同时训练速度比以前的模型快3-9倍，体积也小了6.8倍。
本文的EfficientNetV2和渐进式学习也使研究者们更容易在更大的数据集上训练模型。例如，ImageNet21k（Russakovsky等人，2015）比ImageNet ILSVRC2012大10倍左右，但本文的EfficientNetV2可以在两天内使用32个TPUv3内核的中等计算资源完成训练。
通过在公开的ImageNet21k上进行预训练，本文的EfficientNetV2在ImageNet ILSVRC2012上达到了87.3%的最高准确率，比最近的ViT-L/16的准确率高出2.0%，而训练速度则是其5-11倍。
本文的贡献有三方面。
- 本文介绍EfficientNetV2，一个新的更小更快的模型系列。通过本文的训练感知NAS和扩展，EfficientNetV2在训练速度和参数效率方面都超过了以前的模型。
- 本文提出了一种改进的渐进式学习方法，它随着图像大小自适应地调整正则化。它加快了训练速度，并同时提高了准确性。
- 与现有技术相比，本文在ImageNet、CIFAR、Cars和Flowers数据集上证明了高达11倍的训练速度(与V2-M和V1-B7进行的比较)和高达6.8倍的参数效率。

Related work

Training and parameter efficiency:

许多工作，如DenseNet（Huang等人，2017）和EfficientNet（Tan & Le，2019a），关注参数效率，旨在以更少的参数实现更好的准确性。一些较新的工作旨在提高训练或推理速度，而不是参数效率。例如，RegNet（2020）、ResNeSt（2020）、TResNet（2020）和EfficientNet-X（2021）侧重于GPU和/或TPU推理速度；NFNets（2021）和BoTNets（2021）侧重于提高训练速度。然而，他们的训练或推理速度往往是以更多的参数为代价的。本文旨在比现有技术大幅提高训练速度和参数效率。

Progressive training:

之前的工作提出了不同种类的渐进式训练，动态地改变训练设置或网络，用于GANs（Karras等人，2018）、转移学习（Karras等人，2018）、对抗学习（Yu等人，2019）和语言模型（Press等人，2021）。渐进式调整大小（Howard，2018）大多与本文的方法有关，旨在提高训练速度。然而，它通常以准确性下降为代价。另一项密切相关的工作是Mix&Match（Hoffer等人，2019），它为每个批次随机采样不同的图像大小。
渐进式调整大小和Mix&Match都对所有图像大小使用相同的正则化，导致准确性下降。在本文中，主要区别是也要自适应地调整正则化，这样就可以同时提高训练速度和准确率。本文的方法也部分受到了curriculum learning（Bengio等人，2009）的启发，它将训练实例从易到难进行了安排。本文的方法也是通过添加更多的正则化来逐渐增加学习难度，但不会选择性地挑选训练例子。

Neural architecture search (NAS):

通过自动化网络设计过程，NAS已被用于优化图像分类（Zoph等人，2018）、物体检测（Chen等人，2019；Tan等人，2020）、分割（Liu等人，2019）、超参数（Dong等人，2020）以及其他应用（Elsken等人，2019）的网络架构。以前的NAS工作大多集中在提高FLOPs效率或推理效率。与之前的工作不同，本文使用NAS来优化训练和参数效率。

EfficientNetV2 Architecture Design

研究了EfficientNet（Tan & Le, 2019a）的训练瓶颈，并介绍了本文的训练感知NAS和扩展，以及EfficientNetV2模型。

Review of EfficientNet

EfficientNet（Tan & Le，2019a）是一个针对FLOPs和参数效率优化的模型系列。它利用NAS寻找在精度和FLOPs上有较好权衡的基线EfficientNet-B0。然后用复合扩展策略对基线模型进行扩展，得到B1-B7模型系列。虽然最近的一些作品声称在训练或推理速度上有很大的提高，但它们在参数和FLOPs效率方面往往不如EfficientNet（下表）。在本文中，本文的目标是在保持参数效率的同时提高训练速度。
- EfficientNets have good parameter and FLOPs efficiency.

Understanding Training Efficiency

本文研究了EfficientNet（Tan & Le, 2019a）的训练瓶颈，此后也被称为EfficientNetV1，以及一些简单的技术来提高训练速度。

Training with very large image sizes is slow:

正如之前的工作（Designing network design spaces，2020）所指出的，EfficientNet的大图像尺寸导致了大量的内存占用。由于GPU/TPU上的总内存是固定的，本文必须用较小的批处理量来训练这些模型，这大大减慢了训练速度。
一个简单的改进是应用FixRes（Touvron等人，2019），通过使用比推理更小的图像尺寸进行训练。如下表所示，较小的图像尺寸会导致较少的计算，并能实现大批量的计算，从而使训练速度提高2.2倍。
- EfficientNet-B6在不同批次规模和图像大小下的准确性和训练吞吐量。OOM=out of memory
值得注意的是，正如（Touvron等人，2020；Brock等人，2021）所指出的，使用较小的图像尺寸进行训练也会带来稍好的准确性。但与（Touvron等人，2019）不同的是，本文在训练后没有对任何层进行微调。
本文将探索一种更先进的训练方法，在训练中逐步调整图像大小和正则化。

Depthwise convolutions are slow in early layers but effective in later stages:

EfficientNet的另一个训练瓶颈来自于大量的深度卷积（Sifre，2014）。深度卷积比普通卷积有更少的参数和FLOPs，但它们往往不能充分利用现代加速器。最近，Fused-MBConv在（Efficientnet-edgetpu: Creating accelerator-optimized neural networks with automl, 2019）中被提出，后来又被用于（Gupta & Akin, 2020；Xiong等人，2020；Li等人，2021）以更好地利用移动或服务器加速器。如下图所示，它将MBConv（Sandler等人，2018；Tan & Le，2019a）中的深度conv3x3和扩展conv1x1替换为单一的规则conv3x3。
- $\textcolor{red}{Structure~ of~ MBConv~ and~ Fused-MBConv}$ .
为了系统地比较这两个构件，本文在EfficientNet-B4中逐渐用Fused-MBConv替换原来的MBConv（下表）。
- 用Fused-MBConv替换MBConv。没有融合表示所有阶段都使用MBConv，融合阶段1-3表示在{2，3，4}阶段用融合-MBConv替换MBConv。
$\textcolor{pink}{在早期的1-3阶段，Fused-MBConv可以提高训练速度，且对参数和FLOPs的开销很小}$ ；但如果本文用Fused-MBConv替换所有的模块（第1-7阶段），那么它就会大大增加参数和FLOPs，同时也会降低训练的速度。找到MBConv和Fused-MBConv这两个构件的正确组合是不容易的，这促使本文利用神经结构搜索来自动搜索最佳组合。

Equally scaling up every stage is sub-optimal:

EfficientNet使用一个简单的复合缩放规则对所有阶段进行平均缩放。例如，当深度系数为2时，那么网络中的所有阶段的层数将增加一倍。然而，这些阶段对训练速度和参数效率的贡献并不一样。
在本文中，将使用非均匀缩放策略，在后期阶段逐步增加层数。此外，EfficientNets会积极地扩大图像尺寸，导致大量的内存消耗和缓慢的训练。为了解决这个问题，本文略微修改了缩放规则，将最大图像尺寸限制在一个较小的数值。

Training-Aware NAS and Scaling

为此，本文已经了解了多种提高训练速度的设计选择。为了寻找这些选择的最佳组合，本文现在提出了一个训练感知的NAS。

NAS Search:

本文的训练感知NAS框架主要基于之前的NAS工作（Tan等人，2019；Tan & Le，2019a），但旨在共同优化现代加速器上的准确性、参数效率和训练效率。具体来说，本文使用EfficientNet作为骨干网络。本文的搜索空间是一个类似于（Tan等人，2019）的基于阶段的因子化空间，其中包括卷积运算类型{MBConv，Fused-MBConv}、层数、核大小{3x3，5x5}、扩展比{1，4，6}的设计选择。
另一方面，本文通过以下方式减少搜索空间大小：
- （1）删除不必要的搜索选项，如pooling skip ops，因为它们在原始EfficientNets中从未使用过；
- （2）重新使用骨干的相同通道大小，因为它们在（Tan & Le, 2019a）中已经被搜索过。
由于搜索空间较小，本文可以在规模与EfficientNetB4相当的更大的网络上应用强化学习（Tan等人，2019）或简单的随机搜索。具体来说，研究工作最多抽取1000个模型，用缩小的图像尺寸训练每个模型约10个epochs。
本文的搜索奖励结合了模型精度A、归一化训练步骤时间S和参数大小P ，使用简单的加权乘积 $A·S^w·P^v$ ，其中w = -0.07和v = -0.05是根据经验确定的，以平衡类似于（Tan等人，2019）的权衡因素。

EfficientNetV2 Architecture:

下表显示了本文搜索到的模型EfficientNetV2-S的架构。
- EfficientNetV2-S architecture -MBConv和FusedMBConv模块在上图中描述。
- Stride就是步距，注意每个Stage中会重复堆叠Operator模块多次，只有第一个Opertator模块的步距是按照表格中Stride来设置的，其他的默认都是1。 #Channels表示该Stage输出的特征矩阵的Channels，#Layers表示该Stage重复堆叠Operator的次数。
  - 原文链接：https://blog.csdn.net/qq_37541097/article/details/116933569
- 通过上表可以看到EfficientNetV2-S分为Stage0到Stage7（EfficientNetV1中是Stage1到Stage9）。Operator表示在当前Stage中使用的模块：
  - Conv3x3就是普通的3x3卷积 + 激活函数（SiLU）+ BN
  - Fused-MBConv模块名称后跟的1，4表示expansion ratio，k3x3表示kenel_size为3x3。注意当expansion ratio等于1时是相当于没有expand conv的。注意当stride=1且输入输出Channels相等时才有shortcut连接。还需要注意的是，当有shortcut连接时才有Dropout层，而且这里的Dropout层是Stochastic Depth，即会随机丢掉整个block的主分支（只剩残差分支，相当于直接跳过了这个block）也可以理解为减少了网络的深度。
  - MBConv模块和V1中是一样的，其中模块名称后跟的4，6表示expansion ratio，SE0.25表示使用了SE模块，0.25表示SE模块中第一个全连接层的节点个数是输入该MBConv模块特征矩阵channels的$\frac{1}{4} $ 。注意当stride=1且输入输出Channels相等时才有shortcut连接。同样这里的Dropout层是Stochastic Depth。
与EfficientNet骨干网相比，本文搜索到的EfficientNetV2有几个主要区别：
- （1）第一个区别是EfficientNetV2在早期层广泛使用MBConv（Sandler等人，2018；Tan & Le，2019a）和新增加的fused-MBConv（Gupta & Tan，2019）。EfficientNetV2中除了使用到MBConv模块外，还使用了Fused-MBConv模块（主要是在网络浅层中使用）。
- （2）EfficientNetV2倾向于为MBConv提供较小的扩展率，因为较小的扩展率往往有较少的内存访问开销。EfficientNetV2会使用较小的expansion ratio（MBConv中第一个expand conv1x1或者Fused-MBConv中第一个expand conv3x3）比如4，上网络结构中的Fused-MBConv4中的4，在EfficientNetV1中基本都是6. 看V1网络结构中的MBConv6中的6，这样的好处是能够减少内存访问开销。
- （3）EfficientNetV2更倾向于较小的3x3内核尺寸，但它会增加更多的层来补偿较小的内核尺寸所导致的接受野的减少。V2中更偏向使用更小(3x3)的kernel_size，在EfficientNetV1中使用了很多5x5的kernel_size。通过上表可以看到使用的kernel_size全是3x3的，由于3x3的感受野是要比5x5小的，所以需要堆叠更多的层结构以增加感受野。
- （4）EfficientNetV2完全删除了原EfficientNet中的最后一个stride-1阶段，这可能是由于其参数大小和内存访问开销较大。

EfficientNetV2 Scaling:

本文采用与（Tan & Le, 2019a）类似的复合缩放法对EfficientNetV2-S进行扩展，得到EfficientNetV2-M/L，并进行了一些额外的优化：
- （1）本文将最大推理图像尺寸限制在480，因为非常大的图像往往会导致昂贵的内存和训练速度开销；
- （2）作为一种启发式方法，还在后期阶段逐步增加层数，以增加网络容量而不增加很多运行时间开销。

Training Speed Comparison:

图TPUv3上的ImageNet准确性和训练步骤时间比较了本文新的EfficientNetV2的训练步骤时间，其中所有模型都是在固定的图像尺寸下训练的，没有渐进式学习。对于EfficientNet(Tan & Le, 2019a)，本文显示了两条曲线：一条是用原始推理尺寸训练的，另一条是用大约30%的小图像尺寸训练的，与EfficientNetV2和NFNet(Touvron等人, 2019; Brock等人, 2021)相同。
所有的模型都是用350个epochs来训练的，除了NFNets是用360个epochs来训练的，所以所有的模型都有类似的训练步骤。有趣的是，本文观察到，当训练得当时，EfficientNets仍然能实现相当强的性能权衡。
更重要的是，通过本文的训练感知NAS和扩展，本文提出的EfficientNetV2模型的训练速度比其他最近的模型快很多。这些结果也与本文的推理结果一致，如下图所示。
- Model Size, FLOPs, and Inference Latency 延迟是在V100 GPU上以批处理量16来测量的。21k表示在ImageNet21k图像上的预训练，其他的只是在ImageNet ILSVRC2012上的训练。本文的EfficientNetV2的参数效率略高于EfficientNet，但推理运行速度快3倍。

Progressive Learning

Motivation

正如上文所讨论的，图像大小对训练效率起着重要作用。除了FixRes（Touvron等人，2019），许多其他作品在训练过程中动态改变图像大小（Howard，2018；Hoffer等人，2019），但它们往往导致准确率下降。
Accuracy的降低是不平衡的正则化unbalanced regularization导致的。在训练不同尺寸的图像时，应该使用动态的正则方法（之前都是使用固定的正则方法）。
为了验证这个猜想，作者接着做了一些实验。在前面提到的搜索空间中采样并训练模型，训练过程中尝试使用不同的图像尺寸以及不同强度的数据增强data augmentations。
当训练的图片尺寸较小时，使用较弱的数据增强augmentation能够达到更好的结果；当训练的图像尺寸较大时，使用更强的数据增强能够达到更好的接果。
本文假设准确率的下降来自于不平衡的正则化：当用不同的图像尺寸进行训练时，也应该相应地调整正则化强度（而不是像以前的工作那样使用固定的正则化）。事实上，大型模型需要更强的正则化来对抗过拟合是很常见的：例如，EfficientNet-B7比B0使用更大的dropout和更强的数据增强。
在本文中，即使是相同的网络，较小的图像尺寸会导致较小的网络容量，因此需要较弱的正则化；反之，较大的图像尺寸会导致更多的计算，而容量较大，因此更容易出现过拟合。
为了验证本文的假设，训练了一个模型，从本文的搜索空间取样，用不同的图像大小和数据增强（下表）。
- ImageNet前1名的准确性。本文使用RandAug（Cubuk等人，2020），并报告了3次运行的平均值和stdev。
- 当Size=128，RandAug magnitude=5时效果最好；当Size=300，RandAug magnitude=15时效果最好
当图像尺寸较小时，它在弱增强的情况下具有最好的准确性；但对于较大的图像，它在强增强的情况下表现更好。这一见解促使本文在训练过程中随着图像大小自适应地调整正则化，从而导致本文改进的渐进式学习方法。

Progressive Learning with adaptive Regularization

图4说明了本文改进的渐进式学习的训练过程：在早期的训练时代，本文用较小的图像和弱的正则化来训练网络，这样网络可以很容易和快速地学习简单的表示。然后，本文逐渐增加图像大小，但也通过增加更强的正则化使学习更加困难。本文的方法是建立在（Howard，2018）的基础上，逐步改变图像大小，这里本文也自适应地调整正则化。
- 本文改进的渐进式学习的训练过程–它从小的图像尺寸和弱的正则化开始（epoch=1），然后用更大的图像尺寸和更强的正则化逐渐增加学习难度：更大的dropout rate、RandAugment幅度和混合比例（例如，epoch=300）。
形式上，假设整个训练共有N个步骤，目标图像大小为 $S_e$ ，有一个正则化幅度列表 $Φ_e = {φ^k_e}$ ，其中k代表正则化的类型，如dropout rate或mixup rate值。本文将训练分为M个阶段：对于每个阶段1≤i≤M，模型在图像大小为Si和正则化幅度的情况下进行训练 $Φ_i = {φ^k_i}$ 。
最后一个阶段M将使用目标图像尺寸 $S_e$ 和正则化 $Φ_e$ 。为简单起见，本文启发式地挑选初始图像尺寸 $S_0$ 和正则化 $Φ_0$ ，然后使用线性插值来确定每个阶段的值。下面的算法1总结了该程序。
- - 算法1 带有自适应正则化的渐进式学习。
  - 输入。初始图像大小 $S_0$ 和正则化 ${φ^k_0}$ 。
  - 输入。最终图像尺寸 $S_e$ 和正则化 ${φ^k_e}$ 。
  - 输入。训练总步骤数N和阶段数M。
    - for i=0 to M-1 do
      
      图像大小: $S_i\leftarrow S_0+(S_e+S_0)·\frac{i}{M-1}$
      
      正则化： $R_i\leftarrow \{\phi^k_i=\phi^k_0+(\phi^k_e-\phi^k_0)·\frac{i}{M-1}\}$
      
      用Si和Ri对模型进行 $\frac{N}{M}$ 步训练。
      
      end for
在每个阶段的开始，网络将继承上一阶段的所有权重。与transformers不同，transformers的权重（如位置嵌入）可能取决于输入长度，而ConvNet的权重与图像大小无关，因此可以很容易地继承。
本文改进的渐进式学习与现有的正则化普遍兼容。为了简单起见，本文主要研究以下三种类型的正则化。
- Dropout（Srivastava等人，2014）：一个网络级的正则化，它通过随机放弃通道来减少共同适应。本文将调整辍学率γ。
- RandAugment（Cubuk等人，2020）：每幅图像的数据增强，具有可调整的幅度 $\epsilon$ 。
- Mixup（Zhang等人，2018）：一个跨图像的数据增强。给定两张具有标签（xi，yi）和（xj，yj）的图像，它以混合比例λ将它们结合起来： $\widetilde{x}_i=λx_j+(1-λ)x_i，\widetilde{y}_i=λy_j+(1-λ)y_i$ 。本文将在训练期间调整混合比率λ。

Main Results

本节将介绍了本文的实验设置，ImageNet上的主要结果，以及CIFAR-10、CIFAR-100、Cars和Flowers上的迁移学习结果。

ImageNet ILSVRC2012

**设置：**ImageNet ILSVRC2012（Russakovsky等人，2015）包含约128万张训练图像和50,000张验证图像，有1000个类别。
在架构搜索或超参数调整过程中，本文从训练集中保留了25,000张图像（约2%），作为准确性评估的最小值。本文还使用minival来执行早期停止。
本文的ImageNet训练设置基本遵循EfficientNets（Tan & Le, 2019a）。RMSProp优化器，衰减0.9，动量0.9；批量规范动量0.99；权重衰减1e-5。每个模型训练350个epochs，总批次大小为4096。学习率首先从0预热到0.256，然后每2.4个epochs衰减0.97。
本文使用指数移动平均，衰减率为0.9999，RandAugment（Cubuk等人，2020），Mixup（Zhang等人，2018），Dropout（Srivastava等人，2014），以及随机深度（Huang等人，2016），生存概率为0.8。
对于渐进式学习，本文将训练过程分为四个阶段，每个阶段大约有87个epochs：早期阶段使用小的图像尺寸和弱的正则化，而后期阶段使用较大的图像尺寸和较强的正则化，如上述算法1中所述。
下表显示了图像大小和正则化的最小值（用于第一阶段）和最大值（用于最后阶段）。
- Progressive training settings for EfficientNetV2.
- 上表给出了EfficientNetV2（S，M，L）三个模型的渐进学习策略参数。
为了简单，所有的模型都使用相同的大小和正则化的最小值，但它们采用不同的最大值，因为较大的模型通常需要更多的正则化来对抗过拟合。按照（Touvron等人，2020），本文训练时的最大图像尺寸比推理时小20%左右，且在训练后不对任何层进行微调。
**结果：**如下表所示，本文的EfficientNetV2模型比以前的ConvNets和Transformer在ImageNet上的训练速度明显更快，并取得了更好的准确性和参数效率。
- EfficientNetV2 Performance Results on ImageNet
- 推理时间是在V100 GPU FP16上测量的，批处理量为16，使用相同的代码库（Wightman，2021）；训练时间是32个TPU核归一化的总训练时间。标有21k的模型在ImageNet21k上进行了预训练，有1300万张图片，其他模型则直接在ImageNet ILSVRC2012上训练，有128万张图片。所有EfficientNetV2模型都是用本文改进的渐进式学习方法训练的。
- 本文不包括在非公开的Instagram/JFT图像上预训练的模型，也不包括有额外知识蒸馏或集合的模型。
特别是，本文的EfficientNetV2-M在使用相同的计算资源的情况下，取得了与EfficientNet-B7相当的准确率，同时训练速度提高了11倍。本文的EfficientNetV2模型在准确率和推理速度上也明显优于最近的所有RegNet和ResNeSt。
上文第一张图进一步显示了训练速度和参数效率方面的比较。值得注意的是，这种速度提升是渐进式训练和更好的网络的结合，本文将在消融研究中研究它们各自的影响。
最近，Vision Transformers 在ImageNet的准确性和训练速度上表现出了令人印象深刻的效果。然而，本文在此表明，经过适当设计的ConvNets和改进的训练方法仍然可以在准确性和训练效率方面大大超过Vision Transformers 。
特别是，本文的EfficientNetV2-L达到了85.7%的最高准确率，超过了ViT-L/16(21k)，一个在更大的ImageNet21k数据集上预训练的更大的转化器模型。在这里，ViTs在ImageNet ILSVRC2012上没有得到很好的调整；DeiTs使用了与ViTs相同的架构，但通过增加更多的正则化实现了更好的结果。
尽管本文的EfficientNetV2模型是为训练而优化的，而且它们在推理方面也表现良好，因为训练速度往往与推理速度相关。图Model Size, FLOPs, and Inference Latency直观地显示了基于上表的模型大小、FLOPs和推理延迟。
由于延迟往往取决于硬件和软件，这里本文使用相同的PyTorch图像模型代码库（Wightman，2021），并在同一台机器上使用批处理大小16来运行所有模型。一般来说，本文的模型的参数/FLOPs效率比EfficientNets略高，本文的推理延迟比EfficientNets快3倍。与最近专门针对GPU优化的ResNeSt相比，本文的EfficientNetV2-M以2.8倍的推理速度实现了0.6%的精度。

ImageNet21k

设置：ImageNet21k（Russakovsky等人，2015）包含约1300万张训练图像，有21841个类。原始的ImageNet21k没有训练/评估分割，所以本文随机挑选了100,000张图片作为验证集，并将剩余的图片作为训练集。
本文在很大程度上重复了ImageNet ILSVRC2012的训练设置，但有一些变化：
- （1）本文将训练epoch改为60或30，以减少训练时间，并使用余弦学习率衰减，可以适应不同的步骤，而无需额外调整；
- （2）由于每个图像有多个标签，本文在计算softmax损失之前，将标签归一为1。在ImageNet21k上进行预训练后，每个模型在ILSVRC2012上使用余弦学习率衰减进行了15次微调。
结果。上表显示了性能比较，其中标记为21k的模型在ImageNet21k上进行了预训练，在ImageNet ILSVRC2012上进行了微调。与最近的ViT-L/16(21k)相比，本文的EfficientNetV2L(21k)将前1名的准确率提高了1.5%（85.3% vs. 86.8%），使用的参数减少了2.5倍，FLOPs减少了3.6倍，而训练和推理的速度提高了6-7倍。
本文想强调几个有趣的观察。
- 在高准确率的情况下，扩大数据规模比单纯扩大模型规模更有效：当top-1的准确率超过85%时，由于严重过拟合，单纯增加模型规模很难进一步提高。然而，额外的ImageNet21K预训练可以显著提高准确性。大型数据集的有效性也在以前的工作中观察到（Mahajan等人，2018；Xie等人，2020；Dosovitskiy等人，2021）。
- 在ImageNet21k上进行预训练可能是相当有效的。虽然ImageNet21k有10倍的数据，但本文的训练方法能够在两天内使用32个TPU核完成EfficientNetV2的预训练（而不是ViT（Dosovitskiy等人，2021）的几周）。这比在ImageNet上训练更大的模型更有效。本文建议未来关于大规模模型的研究使用公共的ImageNet21k作为默认数据集。

Transfer Learning Datasets

设置：本文在四个迁移学习数据集上评估本文的模型。CIFAR-10，CIFAR-100，花和汽车。下表包括这些数据集的统计数据。
- Transfer learning datasets.
在这个实验中，本文使用在ImageNet ILSVRC2012上训练的checkpoints。为了公平比较，这里没有使用ImageNet21k图像。本文的微调设置大多与ImageNet训练相同，并做了一些类似于（Dosovitskiy等人，2021；Touvron等人，2021）的修改。
本文使用较小的批次大小512，较小的初始学习率0.001和余弦递减。对于所有数据集，本文对每个模型进行固定的10000步训练。由于每个模型都是用很少的步骤进行微调，本文禁用权重衰减，并使用简单的切分数据增量。
结果：下表比较了转移学习的性能。
- Transfer Learning Performance Comparison
- 所有模型都在ImageNet ILSVRC2012上进行了预训练，并在下游数据集上进行了微调。迁移学习的准确性是五次运行的平均数。
总的来说，本文的模型在所有这些数据集上的表现都优于以前的ConvNets和Vision Transformers，有时还能达到一个不小的幅度：例如，在CIFAR-100上，EfficientNetV2-L的准确率比以前的GPipe/EfficientNets高出0.6%，比以前的ViT/DeiT模型高出1.5%。这些结果表明，我们的模型在ImageNet之外也有很好的通用性。

Ablation Studies

Comparison to EfficientNet

下文将在相同的训练和推理设置下，将本文的EfficientNetV2（简称V2）与EfficientNets（Tan & Le, 2019a）（简称V1）进行比较。

Performance with the same training:

下表显示了使用相同的渐进式学习设置的性能比较。
- 在相同的训练设置下的比较–本文新的EfficientNetV2-M在更少的参数下运行得更快。
由于本文对EfficientNet采用同样的渐进式学习，其训练速度（从139h减少到54h）和准确率（从84.7%提高到85.0%）都优于原始论文（Tan & Le, 2019a）。
然而，如上表所示，本文的EfficientNetV2模型仍然比EfficientNets有很大的优势。EfficientNetV2-M的参数降低了17%，FLOPs降低了37%，同时在训练中比EfficientNet-B7快4.1倍，在推理中快3.1倍。由于本文在这里使用的是相同的训练设置，因此本文将这些收益归功于EfficientNetV2的架构。

Scaling Down:

前面的章节主要是针对大规模的模型。在这里，本文通过使用EfficientNet复合缩放技术缩小EfficientNetV2-S的规模来比较小型模型。为了便于比较，所有的模型都是在没有渐进学习的情况下训练的。与小规模的EfficientNets(V1)相比，新的EfficientNetV2(V2)模型总体上更快，同时保持了相当的参数效率。

Progressive Learning for Different Networks

本文对不同网络的渐进式学习的性能进行了消减。下表显示了我们的渐进式训练和基线训练之间的性能比较，使用相同的ResNet和EfficientNet模型。
- Progressive learning for ResNets and EfficientNets –
- （224）和（380）表示推理图像的大小。本文的渐进式训练提高了所有网络的准确性和训练时间。
这里，基线ResNets比原始论文（He等人，2016）有更高的准确性，因为它们是用本文改进的训练设置，使用更多的epochs和更好的优化器来训练的。本文还将ResNets的图像大小从224增加到380，以进一步提高网络容量和准确性。
如下表所示，本文的渐进式学习总体上减少了训练时间，同时提高了所有不同网络的准确性。不足为奇的是，当默认的图像尺寸非常小时，如ResNet50(224)的尺寸为224x224，训练速度的提高是有限的（1.4倍的速度）；
然而，当默认的图像尺寸较大且模型较复杂时，本文的方法在准确性和训练效率上取得了较大的提高：对于ResNet152(380)，本文的方法将训练速度提高了2.1倍，准确性稍好；对于EfficientNet-B4，本文将训练速度提高了2.2倍。

Importance of Adaptive Regularization

本文的训练方法的一个关键见解是** $\textcolor{blue}{自适应正则化}$ **，它根据图像大小动态地调整正则化。本文选择了一种简单的渐进式方法，因为它很简单，但它也是一种通用的方法，可以与其他方法相结合。
下表在两种训练设置上研究了本文的自适应正则化：一种是从小到大逐步增加图像大小（Howard，2018），另一种是为每批随机采样不同的图像大小（Hoffer等人，2019）。
- 自适应正则化–根据三次运行的平均值来比较ImageNet前1名的准确性。
因为TPU需要为每一个新的尺寸重新编译图形，这里本文每8个epoch而不是每一批随机抽样一个图像尺寸。与对所有图像尺寸使用相同正则化的渐进式或随机调整尺寸的虚构方法相比，本文的自适应正则化提高了0.7%的准确性。
下图进一步比较了渐进式方法的训练曲线。本文的自适应正则化在早期训练时对小图像使用更小的正则化，使模型能够更快地收敛并获得更好的最终精度。
- Training curve comparison 本文的自适应正则化收敛得更快，并取得了更好的最终准确性。

Conclusion

本文介绍了EfficientNetV2，一个新的用于图像识别的更小更快的神经网络系列。
通过训练感知的NAS和模型扩展的优化，本文的EfficientNetV2明显优于以前的模型，同时在参数上更快、更有效。
为了进一步加快训练速度，本文提出了一种改进的渐进式学习方法，即在训练过程中共同增加图像大小和正则化。
大量的实验表明，本文的EfficientNetV2在ImageNet和CIFAR/Flowers/Cars上取得了很好迁移的效果。
与EfficientNet和最近的作品相比，本文的EfficientNetV2的训练速度提高了11倍，而体积却缩小了6.8倍。

你可能感兴趣的:(论文笔记,深度学习,计算机视觉,目标检测,NAS,神经网络)

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
安卓NAS，众乐影音APP，低成本打造全能家庭存储中心 DeepSeek+NAS 安卓nas winnas AINAS nas 家用nas 小米nas 飞牛nas
在数字化时代，数据存储和共享需求日益增长，NAS设备成为家庭和办公场景中的重要工具。然而，传统NAS设备价格高昂，操作复杂，让许多用户望而却步。如今，耘想公司推出的众乐影音APP，以其创新的理念和强大的功能，彻底改变了这一局面。它不仅是一款安卓影音播放器，更是一款低成本、全功能的安卓NAS解决方案，让普通用户也能轻松享受NAS的便利。一、众乐影音APP的核心功能1.低成本NAS解决方案众乐影音AP
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
书籍-《优化与最优控制简明教程》优化深度学习人工智能算法
书籍：OptimizationandOptimalControlinaNutshell作者：SudathRohanMunasinghe出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《优化与最优控制简明教程》01书籍介绍本书简洁地介绍了优化过程和最优控制过程，并通过实例和仿真帮助自学和更好地理解。首先从函数优化和约束引入开始，随后扩展到使用变分法进行泛函优化。书中详细讲解
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
BT-Basic函数之首字母M 可可南木 BT-Basic函数大全测试工具开发语言 pcb工艺
BT-Basic函数之首字母M文章目录BT-Basic函数之首字母Mmassstorageismergemeterminimumwaitmodulepinassignmentmsecmsimsi$massstorageismassstorageis是msi函数的另一种形式mergemerge函数允许您将一个或多个文件（称为次级文件）的全部或部分内容合并到另一个文件（称为主文件）中。首先，将主文件加
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Eclipse运行带参数的java程序（转） frank1998819 java 开发工具
N年不用了，再用有点忘记了运行的方法是，右键——》runas——》runconfiguration——》Arguments——》programarguments输入62145698910即每一个参数用空格分开。
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S