[NAS2](2022CVPR)TF-NAS: Training Free Transformer Architecture Search

先贴一张流程图:

[NAS2](2022CVPR)TF-NAS: Training Free Transformer Architecture Search_第1张图片


Abstract

研究背景:ViT已经在几个计算机视觉任务实现了很好的效果,其成就和架构设计高度相关,因此很值得提出Transformer Architecture Search (TAS)自动搜索更好的ViTs。

提出问题:当前的TAS方法非常耗时,且根据实验观察发现在CNN中使用的zero-cost proxies不能很好的推广到ViT搜索空间。

解决方法:先观察了如何以training-free的方式指导TAS进行并设计有效的training-free TAS范式。

  • 首先,观察了多头自注意力模块(MSA)和多层感知机(MLP)的属性是非常不同的,且MSA的synaptic diversity更明显的影响实验结果。
  • 其次,基于该观察,设计了一个DSS-indicator指标(包含synaptic diversity和synaptic saliency)来对ViT架构排序。通过DSS,评价结果和ViT的测试精度高度相关。

实验结果:极大提升了ViT架构的搜索效率,从24GPU days到0.5 GPU days。

1. Introduction

ViT的背景介绍:ViT最近在计算机视觉领域展示了巨大的竞争力,是一个很重要的研究热点。随着最近手工设计的Vi

你可能感兴趣的:(神经架构搜索,大数据)