论文阅读笔记1——DARTS:Differentiable Architecture Search可微分架构搜索(一)(论文翻译学习)

DARTS:Differentiable Architecture Search 可微分架构搜索(一)

  • DARTS:Differentiable Architecture Search(一)
    • ABSTRACT摘要
    • 1. INTRODUCTION介绍
    • 2. 可微的结构搜索

加油加油!如果你感觉你现在很累,那么恭喜你,你现在正在走上坡路!让我们一起加油!

欢迎关注我的讲解视频,让我们一起学习:

Bilibili主页:https://space.bilibili.com/481802918

DARTS:Differentiable Architecture Search(一)

ABSTRACT摘要

本文通过一个可微分(differentiable)的方法来解决在结构搜索中存在的可伸缩性(scalability)挑战。与在离散的或者一个不可微分的搜索空间来采用演算(evolution)或者强化学习的传统方法不同,我们的方法是基于结构表示形式的连续松弛,允许使用梯度下降的方式实现高效率的结构搜索。我们在CIFAR-10,ImageNet,Penn Treebank和WikiText-2多个数据集上的大量试验结果表明我们的算法擅长于发掘图像分类的高性能卷积网络架构和用于语言建模的高性能循环网络架构,同时比最新的不可微分的方法快几个数量级。我们的算法实现已经公开,以促进对高效架构搜索算法的进一步研究。

1. INTRODUCTION介绍

发掘最新的神经网络架构需要人类专家付出巨大的努力。最近,对于开发算法来使架构设计的手动过程自动化的兴趣氛围越来越浓厚。自动搜索的架构在图像分类以及目标检测等任务中获得了极高的竞争性能。

现存的最好的结构搜索算法尽管有着非凡的表现,但是它们对计算的要求极为苛刻。举个例子:(现存最好的算法)获得应用于CIFAR-10和ImageNet数据集上的最新架构需要2000天的GPU强化学习或者3150天的GPU演算(evolution)。尽管一些用于提速的方法已经被提出来了,例如施加搜索空间的特定结构,每个单独架构的权重或性能预测以及在多重架构之间实现权重共享/继承,但是最根本的可伸缩性挑战仍然存在。主导方法效率低下的内在原因,例如 基于RL,演算(evolution),MCTS,SMBO或贝叶斯优化的事实是架构搜索被视为在离散域中的黑盒优化问题,这导致需要进行大量架构评估。

在这项工作中,我们从另一个角度解决了问题,并提出了一个高效的架构搜索算法,称为DATRS。我们无需在离散的候选架构集上进行搜索,而是放宽了搜索空间,使其成为连续的,以便可以通过梯度下降来针对其验证集性能对架构进行优化。与低效的黑盒搜索相反,基于梯度优化的数据效率使得DARTS可以使用更小数量级的计算资源来获得与现有技术相竞争的性能。它也胜过另一种最新的高效结构搜索算法ENAS。值得注意的是,DARTS比很多现有的算法都要简单,因为它不涉及控制器,超网络或性能预测器,但它足够处理卷积和循环架构。

在一个连续域内进行架构搜索的主意并不是最新的

你可能感兴趣的:(论文阅读笔记,深度学习,人工智能,机器学习,算法,计算机视觉)