【第49篇】Swin Transformer V2:扩展容量和分辨率

摘要

https://arxiv.org/pdf/2111.09883.pdf
大规模 NLP 模型已被证明可以显着提高语言任务的性能,并且没有饱和迹象。它们还展示了与人类一样的惊人的少发能力。本文旨在探索计算机视觉中的大规模模型。我们解决了大型视觉模型训练和应用中的三个主要问题,包括训练不稳定性、预训练和微调之间的分辨率差距以及对标记数据的渴望。提出了三种主要技术:1)残差后范数方法结合余弦注意提高训练稳定性; 2) 一种对数空间连续位置偏差方法,可有效地将使用低分辨率图像预训练的模型转移到具有高分辨率输入的下游任务; 3) 一种自我监督的预训练方法 SimMIM,以减少对大量标记图像的需求。通过这些技术,本文成功训练了一个 30 亿参数的 Swin Transformer V2 模型,这是迄今为止最大的密集视觉模型,并使其能够训练分辨率高达 1536 ×1536 的图像。它在 ImageNet-V2 图像分类、COCO 对象检测、ADE20K 语义分割和 Kinetics-400 视频动作分类等 4 个具有代表性的视觉任务上创造了新的性能记录。另请注意,我们的训练比 Google 的十亿级视觉模型高效得多,后者消耗的标记数据少 40 倍,训练时间少 40 倍。代码:https://github.com/microsoft/Swin-Transformer。

介绍

扩展语言模型已经取得了令人难以置信的成功。 它显着提高了模型在语言任务上的性能 并且该模型展示了与人类相似的惊人的少数镜头能力 。 自从有了 3.4 亿参数的 BERT 大模型,语言模型在几年内迅速扩大了 1000 多倍,达到 5300 亿个密集参数和 1.6 万亿个稀疏参数 。 这些大型语言模型还被发现具有越来越强大的小样本能力,类似于人类智能,可用于广泛的语言任务 。

另一方面,

你可能感兴趣的:(高质量AI论文翻译,transformer,深度学习,人工智能)