Revisiting ResNets: Improved Training and Scaling Strategies

ResNet-RS

  • Abstract
  • 1 Introduction
  • 2. Characterizing Improvements on ImageNet
  • 4. Methodology
    • 4.1. Architecture
    • 4.2. Training Methods
  • 5. Improved Training Methods
    • 5.1. Additive Study of Improvements
    • 5.2. Importance of decreasing weight decay when combining regularization methods
  • 6. Improved Scaling Strategies
    • 6.1. Strategy #1 - Depth Scaling in Regimes Where Overfitting Can Occur
    • 6.2. Strategy #2 - Slow Image Resolution Scaling
    • 6.3. Two Common Pitfalls in Designing Scaling Strategies
    • 6.4. Summary of Improved Scaling Strategies
  • 7. Experiments with Improved Training and Scaling Strategies
  • 7.1. ResNet-RS on a Speed-Accuracy Basis
    • 7.2. Improving the Efficiency of EfficientNets
    • 7.3. Semi-Supervised Learning with ResNet-RS
    • 7.4. Transfer Learning of ResNet-RS
    • 7.5. Revised 3D ResNet for Video Classification
  • 8. Discussion
  • Conclusion

备注: 如有侵权,立即删除
code: https://github.com/tensorflow/tpu/tree/master/models/official/resnet/resnet_rs
source: 2021

Abstract

新的计算机视觉架构占据了焦点,但模型架构的影响往往与训练方法和扩展策略的同时变化混在一起。我们的工作重新审视了规范的ResNet(他等人,2015年),并研究了这三个方面,以努力解开它们。也许令人惊讶的是,我们发现训练和缩放策略可能比架构变化更重要,此外,得到的ResNet与最近的最先进的模型相匹配。我们表明,最佳性能的缩放策略依赖于训练制度,并提供了两种新的缩放策略:(1) 可能发生过拟合的缩放模型深度(否则宽度缩放优先);(2)提高图像分辨率比之前建议的要慢(谭,2019)。利用改进的训练和缩放策略,我们设计了一系列分辨网架构,比TPU上的效率网快1.7x-2.7x,同时在图像网上实现了类似的精度。在大规模的半监督学习设置中,RS达到了86.2%的顶级图像网络精度,同时比效率的网络噪声学生快4.7倍。该训练技术提高了一组下游任务的传输性能(与最先进的自监督算法竞争),并扩展到Kinetics-400上的视频分类。我们建议从业者使用这些简单的修订ResNets作为未来研究的基线。

1 Introduction

Revisiting ResNets: Improved Training and Scaling Strategies_第1张图片
视觉模型的性能是架构、训练方法和缩放策略的产物。然而,研究经常强调建筑结构的变化。新颖的体系结构是许多进步的基础,但通常与其他关键的(但不太公开的)培训方法和超参数细节的变化同时引入。此外,由现代训练方法增强的新架构有时会与具有过时训练方法的旧架构进行比较。ResNet-50,ImageNet最高精度为76.5%(他等,2015年)。我们的工作解决了这些问题,并实证研究了训练方法和扩展策略对流行的瑞网架构的影响(他等人,2015)。
我们调查了当今广泛使用的现代训练和正则化技术,并将其应用于ResNets(图1)。在这个过程中,我们遇到了训练方法之间的相互作用,并显示了与其他正则化技术结合使用时减少权重衰减值的好处。表1中对训练方法的附加研究揭示了这些决策的显著影响:仅通过改进的训练方法,79.0%的标准图像网的准确率就提高到82.2%(3.2%)。通过两个常用的建筑改进,他等(2018)和挤压激励(胡等,2018),进一步增加到83.4%。图1在速度精度帕累托曲线上的起始速度网上跟踪这种改进。
我们为缩放视觉架构提供了新的观点和实际的建议。虽然之前的工作从小模型(谭&勒,2019)或少数时期的训练(拉多萨沃维奇等人,2020),但我们通过各种规模的训练模型来设计缩放策略(例如。350个时代,而不是10个时代)。在此过程中,我们发现了最佳性能的缩放策略和训练制度之间的强依赖关系。时代数量、模型大小、数据集大小)。这些依赖关系在任何一个较小的制度中都被忽略了,从而导致了次优的尺度决策。我们的分析导致了新的缩放策略,总结为(1)在过拟合时放大模型深度(否则缩放宽度更好),(2)放大图像分辨率比之前的工作更慢(谭,2019)。
利用改进的训练和缩放策略,我们设计了重新缩放的网络和网络网,它们跨越广泛的模型大小进行训练,如图1所示。在训练过程中,RS模型使用的内存更少,在TPU的速度上快1.7x-2.7倍(在GPU上快2.1x-3.3倍)。在大规模的半监督学习设置中,当在图像网络和额外的1.30M伪标记图像上联合训练时,在TPU上加速5.5倍,在GPU上加速5.5倍。
最后,我们用一系列实验来测试了改进的训练和扩展策略的通用性。我们首先使用我们的扩展策略设计了一个高效网络的高效网络,它改进了原来的速度精度帕得托曲线。接下来,我们展示了改进的训练策略产生的表现堪比或优于自监督算法(SimCLR(陈等,2020a)和SimCLRv2(陈等,2020b)。改进后的培训策略也可以扩展到视频分类中。将训练策略应用到动力学400数据集上的3d分辨网,可以从73.4%提高到77.4%(4.0%)。
通过结合微小的架构变化(自2018年开始使用)和改进的培训和扩展策略,我们发现ResNet架构为视觉研究设定了最先进的基线。这一发现强调了区分这些因素的重要性,以了解哪些体系结构比其他因素的性能更好。
我们总结了我们的贡献:

  • 对正则化技术及其相互作用的实证研究,导致了正则化策略在不改变模型架构的情况下实现了良好的性能(3%)。
  • 一种简单的缩放策略:当可能发生过度拟合时,(1)缩放深度(缩放宽度更好),(2)缩放图像分辨率比之前的工作更慢(谭,2019)。这种缩放策略提高了速度网和效率网的速度精度帕累托曲线。
  • ResNet-RS:应用训练和扩展策略,比TPU上比GPU快1.7x-1.7x-2.7x(2.1x-3.3x)的帕累托曲线。
  • 附加130M伪标记图像的半监督训练达到86.2%,TPU的5.7倍(相应的5.5倍)(谢等人,2020)。
  • 当微调各种计算机视觉任务时,可以竞争或优于现有的SimCLR(陈等人,2020a)和SimCLRv2(陈等人,2020b)。
  • 通过将我们的训练方法和架构变化扩展3D ResNet-RS到视频分类。得到的模型使Kinetics-400精度比基线提高了4.8%。

2. Characterizing Improvements on ImageNet

自亚历克斯网(克里日耶夫斯基等人,2012)在图像网上取得突破(鲁萨科夫斯基等人,2015)以来,已经提出了各种改进,以进一步提高图像识别性能。这些改进通常沿着四个正交轴出现:体系结构、训练/正则化方法、缩放策略和使用额外的训练数据。
Architecture. 可能最受关注的作品是新颖的建筑。自亚历克斯·奈特(克里日夫斯基等,2012)以来提出的显著建议包括VGG, Inception和ResNeXt. 设计架构的自动搜索策略进一步推动了最先进的发展,特别是NasNet-A(卓普等,2018)、AmoebaNet-A(真实等,2019)和EfficientNet(谭乐,2019)。通过将自我关注(瓦斯瓦尼等人,2017年)适应视觉领域(贝洛等人,2019年;拉曼昌兰等人,2019年;胡等人,2019年;沈等人,2020年;多索维茨基等人)或使用强化层等替代方案(贝洛,2021年)。

Training and Regularization Methods. 训练和正则化方法的创新促进了图像网络的进步。更多时代训练模型时,正则化方法(斯里瓦斯塔瓦等,2014)、标签平滑(杂志等,2016)、随机深度(黄等,2016)、滴块(吉西等,2018)和数据增强(张等,2017;云等,2019;库柏等,2018;2019)有显著改进。改进的学习率计划(洛什奇洛夫和赫特出版社,2016年;戈亚尔等人,2017年)进一步提高了最终考试的准确性。虽然在简短的非正则化培训设置中测试基准架构有助于与之前的工作进行公平比较,但不清楚架构改进是否在更大规模的规模和改进的培训设置中持续。例如,注册网架构(拉多萨沃维奇等,2020)在短的非正则化训练设置中显示出比基线强的加速,但没有在最先进的图像网设置中进行测试(最好的前1是79.9%)。

Scaling Strategies. 增加模型的尺寸。宽度、深度和分辨率)是提高质量的另一个成功轴(罗森菲尔德等,2019;赫斯特内斯等,2017)。详尽证明可以提高神经语言模型的性能(卡普兰等人,2020),从而设计大型模型,包括GPT-3(布朗等人,2020)和开关转换器(费德斯等人,2021)。同样,计算机视觉中的尺度也被证明是有用的。黄等人。(2018)设计并训练了一个5.57亿个参数模型,阿莫巴网络,准确率达到了84.4%。通常,网架构通过增加层(深度)来扩大:以层数后面的网,从网18前进到网200及以后(他等,2016;张等,2020;贝洛,2021)。宽网网(佐鲁科和科莫达科斯,2016)和移动网(霍华德等人,2017)代替宽度。提高图像分辨率也是一个可靠的进步来源。因此,随着培训预算的增长,图像分辨率也是如此:高效净使用600个图像分辨率(2019,谭),东北街(张等,2020)和三角网(里德尼克等,2020)使用448图像分辨率。为了使这些启发式算法系统化,EfficientNet提出了复合缩放规则,建议平衡网络的深度、宽度和图像分辨率。然而,第7.2节显示这种缩放策略不仅对resnet是次优的,而且对EfficientNets也是次优的。

Additional Training Data. 另一种进一步提高准确性的流行方法是对额外数据源(标记、弱标记或未标记)进行培训。大型数据集的预降雨(Sun等人,2017;Mahajan等人,2018;Kolesnikov等人,2019)显著推动了最新的技术,ViT(Dosovitskiy等人,2020年)和NFNET(Brock等人,2021)最近分别达到88.6%和89.2%的成像网精度。噪声学生是一种半监督学习方法,通过在额外130M未标记图像上使用伪标签,获得88.4%的ImageNet top-1精度(Xie等人,2020)。元伪标签(Pham等人,2020),一种改进的半监督学习技术,目前已被认为是有效的ImageNet最新状态(90.2%)。我们在表4中介绍了半监督学习结果,并讨论了我们的培训和规模化战略如何在第8节中转移到大数据系统。

4. Methodology

本文描述了基本的网络体系结构和训练方法。

4.1. Architecture

我们的工作研究了网网结构,有两个广泛使用的体系结构变化,ResNet-D的修改(他等,2018)和Squeeze-and-Excitation(SE)(胡等,2018)。这些架构变化被用于许多使用的架构中,包括TResNet、ResNetSt和EfficientNets。

ResNet-D (He et al., 2018) 结合了对原始网架构的以下四项调整。首先,茎中的7×7卷积被三个较小的3×3卷积取代,如开端V3(杂志等人,2016)。其次,为下采样块的剩余路径中的前两个卷积切换步幅大小。第三,下采样块的跳过连接路径中的步21×1卷积被步22×2平均池取代,然后被非链1×1卷积取代。第四,删除步-23×3最大池层,下采样发生在下一个瓶颈块的前3×3卷积中。我们在图6中描绘了这些修改。
Squeeze-and-Excitation (Hu et al., 2018) 通过来自整个特征图的平均池化信号,通过跨信道交互重新权衡信道。对于所有的实验,我们使用基于初步实验的挤压和激发比为0.25。在我们的实验中,我们有时会使用没有东南部的原始评分网的实现来比较不同的训练方法。此时,系统会在表标题中进行明确的表示。

4.2. Training Methods

我们研究正则化和数据增强方法,通常用于最先进的分类模型和半/自监督学习。
Matching the EfficientNet Setup. 我们的训练方法与高效网络非常匹配,我们训练了350个时代,但有一些小的差异。(1)简单,我们使用余弦学习率日程表(洛什奇洛夫和赫特,2016年),而不是指数衰减(没有额外的超参数)。(2)我们在所有模型中使用兰德认证(库布克等,2019),而高效网最初采用自动提升训练(库布克等,2018)。我们用兰德认证重新运行了高效网B0-B4,发现它没有提供性能改进,并用库布克等人的判断结果报告了高效净B5和B7。(3)为了简单起见,我们使用动量优化器而不是RMSProp。培训设置与高效网络的比较见附录C中的表10。
Regularization. 我们将权值衰减、标签平滑、退出和随机深度应用于正则化。退出(斯里瓦斯塔瓦等人,2014)是计算机视觉中常用的技术,我们将其应用于最后一层发生全局平均池后的输出。随机深度(黄等人,2016)删除网络中的每一层(周围有剩余的连接),指定的概率是层深度的函数。
Data Augmentation. 我们使用兰德判断(古巴等人,2019)数据增强作为一个额外的正则化器。随机判断应用了一系列随机图像转换。在训练过程中,独立地转换、剪切、颜色失真)到每个图像。如前所述,最初有效网使用自动增强(古巴等,2018),这是一个学习增强程序,略低于兰德增强。
Hyperparameter Tuning. 为了选择各种正则化和训练方法的超参数,我们使用了一个持久的验证集,包括图像网训练集的2%(1024个碎片中的20个碎片)。这被称为迷你集,而原始的图像网络验证集(在大多数先前的工作中报告的一个)被称为验证集。所有净RS模型的超参数见附录B的表8。

5. Improved Training Methods

5.1. Additive Study of Improvements

我们在表1中对训练、正则化方法和架构变化进行了附加研究。基线ResNet-200获得79.0%的前1。仅通过改进培训方法,而不改变任何架构,我们就将其性能提高到82.2%(3.2%)。当添加两个常见的和简单的体系结构变化(挤压和激励和阻力网D)时,我们进一步将性能提高到83.4%。仅训练方法就能导致总改进的3/4,这证明了它们对图像网性能的关键影响。

5.2. Importance of decreasing weight decay when combining regularization methods

表2强调了在结合正则化方法时改变权重衰减的重要性。
Revisiting ResNets: Improved Training and Scaling Strategies_第2张图片
当应用兰德判断和标签平滑时,不需要更改1e-4的默认权重衰减。但是,当我们进一步增加退出和/或随机深度时,性能可能会降低,除非我们进一步降低权重衰减。直觉是,由于权重衰减作为一个正则化器,其值必须降低,以便在结合许多技术时不过度正则化模型。此外,佐普等人还认为。(2020a)提出的证据表明,数据增强的增加缩小了权重的L2范数,这使得权重衰减的一些影响显得多余。其他作品使用较小的权重衰减值,但在使用更多正则化时没有指出效果的重要性(谭等,2019;谭勒,2019)。
Revisiting ResNets: Improved Training and Scaling Strategies_第3张图片

6. Improved Scaling Strategies

前一节展示了训练方法的显著影响,我们现在展示了扩展策略也同样重要。为了建立缩放趋势,我们在[0.25、0.5、1.0、1.5、2.0]、[26,50,101,200,300,350,400]的深度和[128,160,224,320,448]的分辨率上对图像网进行了广泛的搜索。我们训练这些架构长达350个时代,模仿了最先进的图像网络模型的训练设置。随着模型尺寸的增大,我们增加了正则化量,以限制过拟合。正则化和模型超参数详见附录E。

FLOPs do not accurately predict performance in the bounded data regime. 之前的尺度定律研究遵循无界数据体系中误差与FLOP之间的幂律(卡普兰等人,2020;亨尼安等人,2020)。为了测试这在我们的场景中是否也适用,我们针对图2中所有缩放配置的FLOP绘制图像网络错误。对于较小的模型,我们观察到误差和FLOP之间的整体幂律趋势,并对比例配置略有依赖。深度与宽度与图像分辨率)。然而,更大的模型尺寸却打破了这个趋势。此外,我们观察到在固定数量的FLOP情况下,图像网络性能有很大的变化,特别是在较高的FLOP情况下。因此,精确的比例配置即使在控制了相同数量的FLOP,也会对性能产生很大的影响。
The best performing scaling strategy depends on the training regime. 接下来,我们直接关注感兴趣的硬件上的延迟2,以确定提高速度精度的帕累托曲线的扩展策略。图3显示了四种图像分辨率和三个不同训练机制(10、100和350 epoch)的宽度或深度缩放模型的准确性和延迟。我们观察到,性能最好的缩放策略,特别是是否缩放深度和/或宽度,在很大程度上取决于训练制度。
Revisiting ResNets: Improved Training and Scaling Strategies_第4张图片

6.1. Strategy #1 - Depth Scaling in Regimes Where Overfitting Can Occur

__Depth scaling outperforms width scaling for longer epoch regimes. __ 在350 epochs的设置(图3,右面板)中,我们观察到深度缩放在所有图像分辨率上明显优于宽度缩放。缩放宽度可能会导致过拟合,即使增加了正则化,有时也会影响性能。我们假设这是由于在缩放宽度时参数有较大的增加。速度网体系结构对所有块组保持恒定的FLOP,并在每个块组中将参数数乘以4×。因此,缩放深度,特别是在早期的层中,与缩放宽度相比,引入的参数更少。
Width scaling outperforms depth scaling for shorter epoch regimes. 相比之下,当仅训练10个epochs时,宽度比例会更好(图3,左面板)。100个epochs时,最佳性能的缩放策略根据深度扩展和宽度缩放而不同,这取决于图像分辨率。缩放策略对训练制度的依赖性揭示了外推缩放规则的一个陷阱。我们指出,之前的工作也选择了在大规模数据集上训练少数时期的时间时的缩放宽度。∼40时代在300M图像上),与我们的实验发现一致,即在较短的时代状态下缩放宽度更好。特别是科列斯尼科夫等人。(2019)训练了一个4x滤波器的152,而布洛克等人。(2021)使用∼1.5x滤波器乘数器缩放宽度。

6.2. Strategy #2 - Slow Image Resolution Scaling

在图2中,我们还观察到较大的图像分辨率产生的收益会减少。因此,我们建议比以前的工作更逐步地提高图像分辨率。这与高效网络提出的复合尺度规则形成了鲜明对比,这会导致非常大的图像。高效净600,7800,有效净2(谢等,2020年)。其他作品如东北街(张等2020)和三角网(里德尼克等2020)将图像分辨率放大到448。我们的实验表明,较慢的图像缩放不仅提高了速度网架构,而且在速度精度的基础上提高了高效的网络结构(第7.2节)。

6.3. Two Common Pitfalls in Designing Scaling Strategies

我们的缩放分析在之前的缩放策略研究中出现了两个常见的陷阱:
(1) Extrapolating scaling strategies from small-scale regimes. 在小尺度区域(例如,在小模型上或具有很少训练周期)中发现的缩放策略可能无法推广到更大的模型或更长的训练迭代。先前的工作从小型模型(Tan&Le,2019)或较短的训练周期(Radosavovic et al.,2020)中推断缩放规则,从而忽略了最佳缩放策略和训练机制之间的依赖关系。因此,我们不建议仅在小范围内生成缩放规则,因为这些规则可能会崩溃.
(2) Extrapolating scaling strategies from a single and potentially sub-optimal initial architecture. 从次优的初始架构开始,可能会倾斜缩放结果。例如,来自于有效网络B0周围的小网格搜索的复合尺度规则,这是通过使用固定的FLOP预算和特定的图像分辨率的体系结构搜索获得的。然而,由于这个图像分辨率对于FLOP预算可能是次优的,因此所得到的缩放策略可以是次优的。相比之下,我们的工作通过训练跨越各种宽度、深度和图像分辨率的模型来设计缩放策略。

6.4. Summary of Improved Scaling Strategies

对于一项新任务,我们建议在不同维度上运行一小部分模型子集,对于整个训练时代,以获得跨模型尺度的维度最有用的直觉。虽然这种方法可能看起来更昂贵,但我们指出,不搜索架构可以抵消成本。
对于图像分类,缩放策略被总结为(1)在可能发生过拟合的情况下缩放深度(否则最好缩放宽度)和(2)慢图像分辨率缩放。实验表明,将这些扩展策略应用于ResNets(ResNet-RS) 和 EfficientNet(EfficientNet-RS),可以显著加速EfficientNet。我们注意到,在最近的工作中也使用了类似的尺度策略,获得了EfficientNets的大加速,如 LambdaResNets (Bello, 2021)和 NFNets(布洛克等人,2021)。

7. Experiments with Improved Training and Scaling Strategies

7.1. ResNet-RS on a Speed-Accuracy Basis

利用改进的训练和缩放策略,我们设计了ResNet-RS,这是一个跨广泛模型尺度的重新缩放ResNet系列(实验和建筑细节见附录B和D)。图4比较了速度精度帕累托曲线上的EfficientNets和ResNet-RS。我们发现,在TPU上,ResNet-RS与EfficientNets的性能相媲美,在TPU的速度快1.7x-2.7倍。
Revisiting ResNets: Improved Training and Scaling Strategies_第5张图片

这种巨大的高效网络加速可能是不直观的,因为与ResNet-RS相比,EfficientNet显著减少了参数量和FLOP。接下来,我们将讨论为什么参数更少、网络效率更少的模型在训练过程中速度更慢,内存更密集。
FLOPs vs Latency. 虽然FLOP为评估计算需求提供了硬件无关度量,但它们可能不能指示培训和推断的实际延迟时间(Howard等人,2017;2019;Radosavovic等人,2020)。在自定义的硬件体系结构中(例如。TPU和GPU),FLOP是特别糟糕的代理,因为操作通常受内存访问成本限制,对现代矩阵乘法单元具有不同级别的优化级别(Jouppi等人,2017)。EfficientNet中使用的反向瓶颈(Sandler等人,2018)采用具有大激活的分层卷积,与ResNet的瓶颈块相比,具有较小的计算与内存比(操作强度)。这使得EfficientNet在现代加速器上的效率比ResNets更低。表3说明了这一点:在TPUV3硬件加速器上,速度比EfficientNet-B6多1.8倍的ResNet-RS模型要快2.7倍。
Revisiting ResNets: Improved Training and Scaling Strategies_第6张图片

Parameters vs Memory. 参数计数并不一定会决定训练期间的内存消耗,因为内存通常由激活函数的大小决定。与我们重新调整的ResNet相比,EfficientNet中使用的大激活也会导致更大的内存消耗,这由于使用大图像分辨率而加剧。参数比EfficientNet-B6多3.8倍的ResNet-RS模型为相似的图像网精度消耗少2.3倍的内存(表3)。我们强调,由于编译器优化,如操作布局分配和内存填充,内存消耗和延迟都与软件和硬件堆栈(TPPv3上的张量流)紧密耦合。

7.2. Improving the Efficiency of EfficientNets

第6节的缩放分析显示,缩放图像分辨率会导致收益减少。这表明,在EfficientNet中提倡的独立于模型尺度增加模型深度、宽度和分辨率的尺度规则是不最优的。我们将慢图像分辨率缩放策略(策略2)应用于有效网,并在不改变图像宽度或深度的情况下训练多个降低图像分辨率的版本。对于图像分辨率224或更小的图像分辨率,兰德提升幅度设置为10,否则对于大于320的图像分辨率,设置为20和15。所有其他超参数都与原始的EfficientNet保持相同。图5展示了在原始EfficientNet和EfficientNet-RS速度精度的曲线上的显著改进。
Revisiting ResNets: Improved Training and Scaling Strategies_第7张图片

7.3. Semi-Supervised Learning with ResNet-RS

在大规模半监督学习设置中,我们测量了如何扩展到更大数据集的表现。我们在1.20M标记图像和1300M伪标记图像的组合上训练ResNet-RS,训练方式类似于Noisy Students(谢等人,2020)。我们使用与噪音学生相同的1.3亿幅图像伪标签的数据集,其中伪标签是由一个EfficientNet-L2模型生成的,具有88.4%的图像网络精度。在标记数据和伪标记数据上联合训练模型,并且训练超参数保持不变。表4显示,ResNet-RS模型在半监督学习设置中也非常强。我们获得了86.2%的最高ImageNet精度,而在TPU上的速度快4.7倍(在相应的GPU上快5.5倍)。
Revisiting ResNets: Improved Training and Scaling Strategies_第8张图片
Revisiting ResNets: Improved Training and Scaling Strategies_第9张图片

7.4. Transfer Learning of ResNet-RS

我们现在研究改进的监督训练策略是否能为转移学习提供更好的表示,并将其与自监督学习算法进行比较。最近的自监督学习算法声称超越了监督学习的转移学习性能,并创造了更普遍的表示(Chen等人,2020a;b)。然而,自监督算法对训练方法进行了一些改变(例如更时代的训练,数据增强),使得与监督学习的比较变得困难。表5比较了改进的监督训练策略(表示RS)与自监督SimCLR(Chen等,2020a)和SimCLRv2(Chen等,2020b)的传输性能。为了紧密匹配模拟SimCLR的训练设置,并提供公平的比较,我们将RS训练策略限制在其原始方法的一个子集内。具体地说,我们使用了400年以来的数据增强、标签平滑、退出、降低权重衰减和余弦学习率衰减,但不使用权重的随机深度或指数移动平均值。我们选择这个子集来密切匹配模拟CLR的训练设置:更长的训练、数据增强和其对比损失的温度参数4。我们使用普通的网网结构,没有修改或挤压过度,SimCLR和SimCLRV2结构。
我们评估了五个下游任务的传输性能:CIFAR-100 Classification (Krizhevsky et al., 2009), Pascal Detection & Segmentation (Everingham et al., 2010), ADE Segmentation (Zhou et al., 2017) and NYU Depth (Silberman et al., 2012). 我们发现,即使局限于一个较小的子集,改进的训练策略也能提高转移性能5。改进的监督表示(RS)在5/10下游任务上优于CLR,在8/10下游任务上优于CLRv2。此外,改进的训练策略显著优于标准监督分数网表示,突出了与自监督学习相比时使用现代训练技术的必要性。虽然自我监督学习可以用于未标记的数据,但我们的研究结果挑战了这样一个概念,即当标签可用时,自我监督算法会比监督学习导致更普遍的表示。

7.5. Revised 3D ResNet for Video Classification

最后,我们将训练策略应用于 Kinetics-400视频分类任务,使用3D ResNet-RS-50作为基准架构(Cian等人,2020)(实验详见附录G)。表6给出了RS培训配方和架构改进的附加研究。
培训策略扩展到视频分类,结果从73.4%综合提高到77.4%(4.0%)。ResNet-D和Squeeze-and-Excitation体系结构的变化进一步将性能提高到78.2%(0.8%)。与我们的图像分类研究类似(表1),我们发现,大部分的改进都可以在不进行建筑变化的情况下获得。如果没有模型缩放,D ResNet-RS-50仅比Kinetics-400少2.2%,为80.4%(费希滕霍弗,2020年)。
Revisiting ResNets: Improved Training and Scaling Strategies_第10张图片

8. Discussion

Why is it important to tease apart improvements coming from training methods vs architectures? 培训方法可以比架构更特定于任务。数据增强对小数据集更有帮助)。因此,来自训练方法的改进并不一定是推广和架构的改进。打包新提出的架构和培训改进使得架构之间的准确比较更加困难。来自培训策略的巨大改进,如果不被控制,可能会掩盖架构上的差异。
How should one compare different architectures? 由于培训方法和规模通常会提高性能(Lee等人,2020;Kaplan等人,2020),在比较不同架构时,对这两个方面进行控制至关重要。控制尺度可以通过不同的指标来实现。虽然许多工作报告了参数和FLOP,但我们认为延迟和内存消耗通常更相关(Radosavovic等人,2020)。我们的实验结果(第7.1节)再次强调FLOP和参数并不代表延迟或内存消耗(Radosavovic等人,2020;Norrie等人,2021)。
Do the improved training strategies transfer across tasks? 答案取决于可用的域和数据集的大小。这里研究的许多训练和正则化方法并没有用于大规模的预训练。3亿幅图像)(科列斯尼科夫等人,2019年;多索维茨基等人,2020年)。数据增强对于小数据集或许多时期的训练都很有用,但增强方法的细节可以依赖于任务。规模紧张,而不是表6中的兰德提升)。
Do the scaling strategies transfer across tasks? 如第6节所讨论,最佳缩放策略取决于训练制度以及过拟合是否是一个问题。当在图像网上训练350个时代时,我们发现缩放深度可以很好地工作,而在训练几个时代时,缩放宽度是更好的。10时代)。这与在大规模数据集上训练几个时代时使用宽度缩放的工作是一致的(科列斯尼科夫等人,2019年)。我们不确定我们的缩放策略如何应用于需要更大图像分辨率的任务。并把这一点留给未来的工作。
Are architectural changes useful? 是的,但是培训方法和缩放策略可能会产生更大的影响。简单性通常会获胜,特别是考虑到在自定义硬件上出现的非平凡的性能问题。通过扩展在可用硬件上优化的更快、更简单的架构(例如,GPU/TPU的卷积而不是逐级卷积),可以超越降低速度和提高复杂性的体系结构变化。我们设想,未来成功的架构将出现在与硬件的协同设计中,特别是在手机等资源紧张的体制下(霍华德等人,2019)。
How should one allocate a computational budget to produce the best vision models? 我们建议从一个高效可用硬件的简单架构开始。在GPU/TPU上网)和训练几种模型来收敛,以不同的图像分辨率、宽度和深度来构造帕累托曲线。请注意,该策略不同于谭和勒(2019),后者反而分配了很大部分的计算预算来确定一个最佳的初始架构。然后,他们做一个小的网格搜索,以找到在所有模型尺度上使用的复合尺度系数。RegNet(拉多萨沃维奇等人,2020年)在只有10个时代的训练时进行了大部分的研究。

Conclusion

通过用现代训练方法和改进的缩放策略更新事实上的视觉基线,我们揭示了瑞网架构的显著的耐久性。简单的架构为最先进的方法设置了强大的基线。我们希望我们的工作鼓励进一步审查,为拟议的创新和基线保持一致的方法。

你可能感兴趣的:(行为识别,深度学习,pytorch)