Training-Free Transformer Architecture Search WithZero-Cost Proxy Guided Evolution(预览版本)
摘要Transformers已表现出卓越的性能,然而,其架构设计是一个耗时的过程,需要专业知识和反复试验。因此,研究通过Transformer架构搜索(TAS)自动搜索高性能Transformers的有效方法是值得的。为了提高搜索效率,基于无训练代理的方法已在神经架构搜索(NAS)中得到广泛采用。然而,这些代理被发现不足以很好地推广到Transformer搜索空间,这一点已被多项研究和我们自己的实