最先进的神经架构搜索(NAS)算法竟然不如随机搜索?
来自瑞士电信和EPFL的研究者提出了一种评价NAS搜索阶段的测试基准。他们发现,最先进的三种NAS算法DARTS、NAO、ENAS往往与随机搜索完全相同,甚至在某些情况下还不如随机搜索。
因此,他们希望,用这套评估方法能够启发其他人,让研究者去寻找新的NAS算法搜索策略。
NAS算法分为两个阶段:搜索体系结构空间、验证最佳体系结构。
在搜索阶段,采样器被训练到收敛或预定义的停止标准。评估阶段会从头开始训练最佳模型,并根据测试数据对其进行评估。
在搜索阶段,NAS算法用到了两个近似:减少搜索空间、跨不同体系结构的权重共享。
目前的评估方法仅通过比较下游任务的结果来评估NAS算法。虽然直观,但未能明确评估其搜索策略的有效性。
因此,研究人员将NAS评估程序扩展到包括搜索阶段,把NAS搜索策略获得的解决方案与随机选择进行比较,从而的出搜索阶段的算法对最终结果的影响。
与普通的NAS不同的是,研究人员将NAS策略找到的最佳体系结构与单个统一随机采样体系结构进行比较。
为了使这个比较有意义,他们用不同的随机种子重复计算,以便训练NAS采样器和随机搜索策略,然后比较不同种子的平均值和标准偏差。
对比实验是在词级语言模型宾夕法尼亚树库(PTB)数据集上进行的。神经网络的目标是找到一个循环单元,正确地预测给定输入序列的下一个单词。然后使用标准的困惑度量来评估候选网络的质量。
最终的实验结果如下图,研究人员绘制了在1000个epoch内使用10种不同种子发现的最佳网络结构的平均困惑度演化。
图的左侧展示了10种不同种子在三个NAS和一个随机搜索中的平均结果,右侧展示了四种算法的最佳结果。用表格显示结果:
为了让NAS和随机搜索更容易找到最佳的网络架构,研究人员缩小了搜索空间,减少了节点树,让实验只有32中可能的解决方案。
结果即使在这个空间中,NAS也没有找到最佳解决方案。这让作者怀疑是否因为权重共享导致了基较差的结果,因此他们去掉了权重共享,并和原来的方案进行对比。
实验结果证明了作者的猜想。
最后,论文得出了三点结论:
平均而言,随机策略优于最先进的NAS算法;
NAS算法的结果和候选排名并不反映候选架构的真实表现;
权重共享策略会对训练产生负面影响,从而降低搜索过程的有效性。
这篇论文结论的一反常态,无疑让研究NAS的人都大吃一惊。因此这篇论文在Reddit的机器学习板块上发表后,有不少网友对此产生了质疑。
首先,他们认为文中的测试基线过于简单,不太具有说服力。
作者也在指出了文中的随机搜索本来就是经过NAS筛选的结果。因为NAS算法的搜索空间在构造过程中受到了足够的约束,因此即使是这个空间中的随机架构也能提供良好的结果。
所以这篇文章的目的不是彻底否定NAS,而是提供一种搜索网络架构的新思路。
论文地址:
Reddit讨论地址:
— 完 —
直播 | 揭秘最强中文NLP预训练模型
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !