Quoc V. Le

https://arxiv.org/search/?query=Quoc+V.+Le&searchtype=all&source=header

1. EfficientNetV2

https://arxiv.org/abs/2104.00298

作者：Mingxing Tan Quoc V. Le

本文介绍了一类新的卷积网络EfficientNetV2，它比以前的模型具有更快的训练速度和更好的参数效率。为了开发这类模型，我们结合训练感知神经结构搜索和缩放，共同优化训练速度和参数效率。这些模型是从搜索空间中搜索出来的，搜索空间中包含了诸如融合MBConv之类的新操作。我们的实验表明，EfficientNetV2模型的训练速度比最先进的模型快得多，同时体积小了6.8倍。通过在训练过程中逐渐增大图像大小，可以进一步加快训练速度，但这通常会导致精度下降。为了补偿这种精度下降，我们建议自适应调整正则化（例如，退出和数据增强），这样我们可以实现快速训练和良好的精度。通过渐进式学习，我们的EfficientNetV2在ImageNet和CIFAR/Cars/Flowers数据集上显著优于以前的模型。通过在相同的ImageNet21k上进行预训练，我们的EfficientNetV2在ImageNet ILSVRC2012上达到了87.3%的前1精度，比最近的ViT提高了2.0%的精度，同时使用相同的计算资源训练速度提高了5-11倍

We do not include models pretrained on non-public Instagram/JFT images, or models with extra distillation or ensemble.

缩小：前面的部分主要集中在大型模型上。在这里，我们通过使用与EfficientNet相似的复合比例系数来缩小EfficientNetV2-S来比较较小的模型。

为了便于比较，所有模型都是在不进行渐进式学习的情况下进行训练的。

与这些小尺寸的EfficientNets（V1）相比，我们的新EfficientNetV2模型通常更快，同时保持了相当的参数效率

结论本文介绍了EfficientNetV2，一种新的更小更快的用于图像识别的神经网络。通过训练感知NAS和模型缩放进行优化，我们的EfficientNetV2显著优于以前的模型，同时在参数方面更快、更高效。为了进一步加快训练速度，我们提出了一种改进的渐进学习方法，即在训练过程中联合增加图像大小和正则化。大量实验表明，我们的EfficientNetV2在ImageNet和CIFAR/Flowers/Cars上取得了很好的效果。与EfficientNet和最近的作品相比，我们的EfficientNetV2的训练速度快了11倍，而体积小了6.8倍。

2.Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

https://arxiv.org/abs/2102.05918

在许多自然语言处理和知觉任务中，预先训练的表征正变得至关重要。尽管NLP中的表征学习已经过渡到对没有人类注释的原始文本的训练，视觉和视觉语言表征仍然严重依赖于昂贵或需要专家知识的精心策划的训练数据集。对于vision应用程序，表示主要是使用带有显式类标签的数据集（如ImageNet或OpenImages）学习的。对于vision语言，流行的数据集（如概念性标题、MSCOCO或CLIP）都涉及到一个非常重要的数据收集（和清理）过程。这种昂贵的管理过程限制了数据集的大小，因此阻碍了训练模型的扩展。在本文中，我们利用了一个超过10亿个图像-文本对的噪声数据集，在概念字幕数据集中不需要昂贵的过滤或后处理步骤即可获得。一个简单的双编码器架构学习使用对比丢失来对齐图像和文本对的视觉和语言表示。我们发现，我们的语料库规模可以弥补其噪音，并导致国家的最先进的表示，即使这样一个简单的学习方案。我们的视觉表示在转移到分类任务（如ImageNet和VTAB）时获得了很强的性能。对齐的视觉和语言表示也在Flickr30K和MSCOCO基准上建立了最新的结果，即使与更复杂的交叉注意模型相比也是如此。这些表示还支持复杂文本和文本+图像查询的跨模态搜索。

图1 我们方法的总结，ALIGN。视觉和语言表达是从有噪声的图像和文本数据中联合学习的。这些表征既可用于视觉任务，也可用于视觉语言任务迁移。在没有任何微调的情况下，ALIGN powers跨模式搜索包括图像到文本搜索、文本到图像搜索，甚至使用联合图像+文本查询进行搜索。

3. PyGlove: Symbolic Programming for Automated Machine Learning

https://arxiv.org/abs/2101.08809

神经网络对超参数和结构选择非常敏感。自动机器学习（AutoML）是一种很有前途的自动化选择的范例。然而，当前的ML软件库在处理AutoML组件之间的动态交互方面非常有限。例如，像ENAS和DARTS这样的高效nas算法通常需要在搜索空间和搜索算法（AutoML中的两个关键组件）之间实现耦合。此外，实现复杂的搜索流（例如在搜索硬件配置的循环中搜索架构）是困难的。总之，更改当前ML库中的搜索空间、搜索算法或搜索流通常需要对程序逻辑进行重大更改。本文介绍了一种基于符号编程的AutoML编程方法。在这种范式下，ML程序是可变的，因此可以很容易地被另一个程序操纵。因此，AutoML可以重新格式化为一个符号操作的自动化过程。利用这个公式，我们将搜索算法的三角形、搜索空间和子程序解耦。这种解耦使得更改搜索空间和搜索算法（不使用和使用权重共享）变得容易，还可以向现有代码中添加搜索功能并实现复杂的搜索流。然后我们介绍PyGlove，一个新的Python库来实现这个范例。通过对ImageNet和NAS-Bench-101的实例研究，我们表明，pyglool用户可以很容易地将静态程序转换为搜索空间，快速迭代搜索空间和搜索算法，并通过复杂的搜索流来获得更好的结果

4.Evolving Reinforcement Learning Algorithms

https://arxiv.org/abs/2101.03958

提出了一种元学习强化学习算法，该算法通过搜索计算图空间来计算基于值的无模型RL代理的损失函数进行优化。所学习的算法是领域不可知的，并且可以推广到训练过程中没有见过的新环境。我们的方法既可以从零开始学习，也可以从已知的现有算法（如DQN）上自举，实现可解释的修改，从而提高性能。该方法从简单的经典控制和gridworld任务中学习，重新发现了时差（TD）算法。在DQN的引导下，我们重点介绍了两种学习算法，它们比其他经典的控制任务、gridworld类型任务和Atari游戏具有更好的泛化性能。对学习算法行为的分析表明，与最近提出的RL算法类似，后者解决了基于值的方法中的高估问题

5.AutoDropout: Learning Dropout Patterns to Regularize Deep Networks

https://arxiv.org/abs/2101.01761

神经网络往往参数化过度，因此受益于积极的正则化。传统的正则化方法，如退出或重量衰减，不利用网络的输入和隐藏状态的结构。结果，这些传统方法不如利用结构的方法有效，例如SpatialDropout和DropBlock，后者在隐藏状态中随机丢弃某些连续区域的值并将其设置为零。虽然脱落区域的位置是随机的，但是空间脱落和脱落块的模式是手工设计和固定的。在这里，我们建议学习辍学模式。在我们的方法中，控制器学习在目标网络的每一个通道和层（如ConvNet或Transformer）生成一个dropout模式。然后，利用丢包模式对目标网络进行训练，并将其验证性能作为控制器学习的信号。实验结果表明，该方法不仅适用于CIFAR-10和ImageNet上的图像识别，而且适用于Penn树库和WikiText-2上的语言建模。学习到的辍学模式也会转移到不同的任务和数据集，例如从宾州树状银行的语言模型到WMT 2014的英法翻译。我们的代码将可用

6.Pre-Training Transformers as Energy-Based Cloze Models

https://arxiv.org/abs/2012.08561

我们介绍了Electric，一个基于能量的完形填空模型，用于文本表征学习。和BERT一样，它是一个给定上下文的条件生成模型。但是，Electric不使用掩蔽或输出上下文中可能出现的令牌的完整分布。相反，它为每个输入标记分配一个标量能量分数，以指示给定上下文的可能性。我们使用一种基于噪声对比估计的算法来训练电力系统，并阐明了这种学习目标与最近提出的ELECTRA预训练方法的密切关系。Electric在转移到下游任务时表现良好，在生成文本的可能性分数方面特别有效：它对语音识别n-best列表进行重新排序，比语言模型更好，比蒙面语言模型快得多。此外，它提供了一个更清晰和更具原则性的观点，伊莱克特拉在训练前学习

7.Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation

https://arxiv.org/abs/2012.07177

在计算机视觉中，建立数据高效且能处理稀有对象类别的实例分割模型是一个重要的挑战。利用数据扩充是解决这一挑战的一个有希望的方向。在这里，我们对复制粘贴增强（[13，12]）进行了系统的研究，例如我们将对象随机粘贴到图像上的分割。以往对复制粘贴的研究依赖于对周围的视觉环境进行建模来粘贴对象。然而，我们发现随机粘贴对象的简单机制已经足够好了，可以在强基线的基础上提供可靠的增益。此外，我们还证明了复制粘贴与半监督方法是相加的，半监督方法通过伪标记（如自训练）利用额外的数据。在COCO实例分割方面，我们实现了49.1的mask-AP和57.3的box-AP，比现有技术提高了+0.6的mask-AP和+1.5的box-AP。我们进一步证明了复制粘贴可以显著改进LVIS基准。我们的基准模型在稀有类别上的表现优于LVIS 2020挑战赛获奖项目+3.6。

8.Towards Domain-Agnostic Contrastive Learning

https://arxiv.org/abs/2011.04419

尽管最近取得了成功，但大多数对比自监督学习方法都是针对特定领域的，严重依赖于需要特定领域知识的数据增强技术，如图像裁剪和旋转。为了克服这种局限性，我们提出了一种新的领域不可知的对比学习方法DACL，该方法适用于不易获得不变性和数据增强技术的领域。我们的方法的关键是使用混合噪声，通过在输入或隐藏状态级别不同地混合数据样本来创建相似和不同的示例。为了证明DACL的有效性，我们在表格数据、图像和图形等不同领域进行了实验。我们的研究结果表明，DACL不仅优于其他领域无关的去噪方法，如高斯噪声，而且与特定领域的方法，如SimCLR，结合起来，提高了自监督视觉表征学习。最后，我们从理论上分析了该方法，并与基于高斯噪声的对比学习方法进行了比较

9.Smooth Adversarial Training

https://arxiv.org/abs/2006.14536

人们普遍认为，网络不可能同时具有精确性和鲁棒性，获得鲁棒性意味着失去精确性。人们还普遍认为，除非使网络变得更大，否则网络体系结构元素对提高对抗鲁棒性的作用不大。在这里，我们通过对对抗性训练的仔细研究，提出了挑战这些共同信念的证据。我们的关键观察是，广泛使用的ReLU激活功能由于其非平稳性而显著削弱对抗性训练。因此，我们提出了平滑对抗训练（SAT），即用ReLU的平滑逼近代替ReLU来加强对抗训练。SAT中平滑激活函数的目的是让它在对抗性训练中找到更难的对抗性例子并计算出更好的梯度更新。与标准对抗训练相比，SAT提高了“免费”的对抗鲁棒性，即准确度不下降，计算量不增加。例如，在不引入额外计算的情况下，SAT显著地将ResNet-50的健壮性从33.0%提高到42.3%，同时还将ImageNet的精确度提高了0.9%。SAT也适用于更大的网络：它有助于EfficientNet-L1在ImageNet上实现82.2%的准确率和58.6%的健壮性，在准确率和健壮性方面比以前最先进的防御系统高出9.5%和11.6%。

10.Rethinking Pre-training and Self-training

11.AutoHAS: Efficient Hyperparameter and Architecture Search

高效的超参数或体系结构搜索方法已经取得了显著的效果，但每种方法都只适用于超参数或体系结构的搜索。在这项工作中，我们提出了一个统一的管道AutoHAS，以有效地搜索体系结构和超参数。AutoHAS学习交替更新共享网络权值和一个强化学习（RL）控制器，后者学习候选体系结构和候选HP的概率分布。引入一个临时权重来存储（由控制器）从所选HPs更新的权重，并且基于该临时权重的验证精度作为更新控制器的奖励。在实验中，我们证明了AutoHAS是有效的，并且可以推广到不同的搜索空间、基线和数据集。尤其是，AutoHAS可以在CIFAR-10/100、ImageNet和其他四个数据集上提高对流行网络体系结构（如ResNet和EfficientNet）的准确性。

12.Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing

随着语言预训练的成功，开发更高效、可扩展性更好的体系结构，以更低的成本利用丰富的未标记数据成为一个迫切需要。为了提高效率，我们检查了在维护一个完整的令牌级表示时被忽略的冗余，特别是对于只需要序列的单个向量表示的任务。基于这种直觉，我们提出了漏斗变压器，它将隐藏状态序列逐渐压缩为较短的状态序列，从而降低了计算成本。更重要的是，通过重新投资从长度缩减节省下来的FLOPs来构建更深或更宽的模型，我们进一步提高了模型的容量。此外，为了按照公共预训练目标的要求执行令牌级预测，漏斗变换器能够通过解码器从减少的隐藏序列中恢复每个令牌的深度表示。从经验上看，如果失败次数相当或更少，漏斗变换器在各种各样的序列级预测任务（包括文本分类、语言理解和阅读理解）上都优于标准变换器。代码和预先训练的检查点在https://github.com/laiguokun/Funnel-Transformer

Quoc V. Le

你可能感兴趣的:(Quoc V. Le)