MS-DARTS: Mean-Shift Based Differentiable Architecture Search

MS-DARTS: Mean-Shift Based Differentiable Architecture Search

基于均值漂移的可微分结构搜索

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第1张图片

摘要

可微体系结构搜索(DARTS)是一种有效的基于连续松弛的网络体系结构搜索(NAS)方法,搜索成本低。它已经引起了Auto-ML研究的广泛关注,成为NAS研究中最有用的范式之一。尽管DARTS可以比传统NAS方法产生更高的效率,对复杂参数有更好的控制,但在离散连续体系结构时,它经常会遇到稳定性问题,导致体系结构恶化。在dart的最后离散化步骤中,我们观察到相当大的有效性损失导致性能急剧下降。为了解决这一问题,我们提出了一种基于采样和扰动的Mean-Shift DARTS (MS-DARTS)来提高稳定性。我们的方法可以提高bot的稳定性和精度,在适当的带宽内平滑损失景观和采样结构参数。我们研究了均值漂移方法的收敛性,以及带宽选择对稳定性和准确性的影响。在CIFAR-10、CIFAR-100和ImageNet上进行的评估表明,ms - dart比其他最先进的NAS方法具有更高的性能,而且降低了搜索成本。

一:引言

卷积神经网络(CNN)体系结构的最新发展在计算机视觉和语言模型等几个领域取得了长足的进展。手工CNN架构设计现在仍然是一种常见的做法;然而,这可能需要大量的时间和努力。另外,网络架构设计过程可以自动化,这可能会以更低的成本和更少的计算时间改进模型。神经体系结构搜索(Neural Architecture Search, NAS)是一种实现网络设计过程自动化的技术,可以探索和优化大量可能的体系结构。NAS越来越受欢迎,它有可能在各个领域取代CNN架构设计的手动、试错模式。NAS技术[1,2,3]可以根据应用需求自动找到合适的网络架构。在某些情况下,生成的模型可以比人类专家设计的网络更出色。这种自动架构搜索是在三个概念组件上执行的:

(1)搜索空间将可能的架构定义为优化设计的主要表示。

(2)搜索策略定义了在搜索空间中执行的探索技术。

(3)性能估计策略评估给定体系结构在不可见数据上的预测性能。NAS方法通常分为两种范式:启发式搜索和可微搜索。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第2张图片

图1:ms - dart网络架构搜索(NAS)管道概述。左边的子图取自[3]。

启发式NAS方法包含两个子类:(i)基于进化的。, AmoebaNet[4]和层次进化[5]和(ii)基于强化学习(RL)。NAS[2]、NASNet[6]、ENAS[7]。启发式搜索算法的瓶颈通常是在模型生成和优化过程中验证各种候选体系结构准确性的计算成本较高。基于rl的方法以准确性作为奖励,以决定在过程中是否应该删除候选模型。尽管这些方法能够有效地找到高质量的架构,但它们通常需要很高的计算成本(许多GPU天)[2]。由于计算资源的限制,这些方法往往不切实际。

可微分的NAS方法,如dart[3,8,9],用一组建筑参数构建超网络。搜索过程基于超网络,在单一的训练框架中同时优化网络参数和建筑参数。最佳的架构是由优化的参数[10]生成的。当使用有限的计算资源运行时,dart方法是有效的。尽管计算效率很高,但DARTS所得到的网络架构仍面临稳定性和泛化问题[?]。虽然混合体系结构的验证精度可以提高,但当将连续的体系结构表示离散为一个离散的(实际的网络体系结构)时,派生体系结构的性能往往在最终的评估阶段崩溃[11,12]。这种不稳定性使得dart产生不必要的结构。例如,跳过连接等无参数操作通常主导生成的架构[11]。DARTS算法通常倾向于宽而浅的结构[13]。在R-DARTS[11]中,提出了基于手工生成标准的早期停止来解决这些问题。然而,这个解并不总是有效的,因为内在的不稳定性可能从搜索过程的开始就发生了。DARTS末端的关键离散步骤是通过将连续结构投影到离散表示流形上来获得最佳的离散结构作为输出。通常,这个投影步骤会导致混合架构(在超网络中基于梯度的优化发现)和得到的离散架构之间的显著性能下降。在DA2S[14]中显示,即使超级网络在ciafar -10[15]上训练时达到90%左右的准确率,未进行参数再训练的子体系结构在同一数据集上的准确率往往低于20%。DARTS采用随机梯度下降(SGD)方法对成本函数进行优化,得到所需的结构参数。SGD方法使dart大部分收敛到一个对扰动非常敏感的极小值。然后,轻微的扰动会导致不显著的成本增加,并显著降低测试精度。这种“投影间隙”使得dart无法以一种稳定的方式对建筑空间进行充分的探索。

基于均值漂移的飞镖。本文从鲁棒最小化和优化泛化两个角度来解决这一不稳定性问题。对于鲁棒最小化,我们通过最小化最坏情况下的代价来搜索最优网络结构。为了优化泛化,我们提出了一种改进的基于均值漂移采样方案[16]的DARTS方法,平滑急剧极小值,并引导SGD收敛到更宽更平坦的极小值。如R-DARTS[11]所示,DARTS收敛到急剧最小值的不稳定是由于搜索过程主要沿着验证损失函数的峰值面而引起的。我们通过建筑扰动研究了dart的稳定性,其中均值偏移作为我们的扰动和平滑策略,可以有效地平滑损失函数的景观。我们是第一个研究平均移适应的dart,并提供数学上的理由,这一方法。r .t。“均值”运算将平滑急剧的极小值,并引导dart收敛到更平坦的极小值,从而获得良好的泛化和精度稳定性。由于搜索表面变得更平坦,可以通过“移位”操作进行大量预测,从而获得更好的建筑搜索效率。以上原因可以解释为什么我们提出的基于均值移位的dart (ms - dart)可以稳定和加速可微架构搜索。图1概述了我们的方法,其中mean-shift控制了连续搜索体系结构的投影,以一种平坦、稳定、高效和准确的方式。

从直观上看,我们的架构搜索优化是基于摄动和鲁棒均值漂移,从而在架构配置中生成平坦的最小值,并在优化生成中产生效益。为了实现鲁棒最小化,我们通过优化网络结构的最坏情况代价来搜索最优网络结构,最坏情况代价是根据其性能选择的局部加权结构候选结构中的最大损失,而不是依赖于单个样本。ms - dart本质上采用了一种基于注意力的采样方案来平滑急剧的极小值,从而可以绕过局部波动来产生平坦的损失景观。它使用高斯分布来采样数据点。本文还研究了它的带宽参数在平滑尖锐极小时的行为。稍后我们将展示这种平滑的景观表示可以使用生成的建筑的hessian矩阵的特征值进行量化。通过检验离散化最佳连续模型前后的精度差异,可以观察到更好的稳定性。第四章的实验结果表明,ms - dart生成的体系结构与SoTA dart方法相比,在性能没有下降的情况下,具有更好的稳定性和效率

本文的贡献包括:

•证明平均偏移设计可以平滑基于dart的NAS造成的急剧极小值,从而避免显著性能下降。

•理论分析了mean-shift对dart稳定性和精度的影响,以及带宽选择的影响。

•理论研究了中移算法的带宽参数对平滑急剧极小值的影响。

•在各种搜索空间和图像分类数据集上对ms - dart与最先进的(SoTA) NAS模型进行的实验评估表明,ms - dart在准确性和计算成本方面都有改进。

二:背景

网络结构搜索(NAS)是一种自动优化神经网络结构设计的计算方法。NAS是一种自动化的方法,可以使用有限的计算资源,以最小的人为干预设计最佳的网络架构。

2.1 NAS

早期NAS方法[2,17]在每个搜索步骤中从头开始训练候选架构,计算成本很高。ENAS[7]避免了通过权重共享从头开始培训所有候选架构。尽管加速了,这种策略可能会产生对候选架构[12]的错误估计。NAS可能很难从大量的候选网络体系结构中找到一个好的网络体系结构,这进一步降低了最终搜索网络体系结构的有效性。随后,DNA[18]将大NAS搜索空间转换为块,通过权值共享减少参数变化,从而充分探索和训练候选架构。DAS[19]将离散网络架构搜索空间转化为连续可微的搜索空间,使得梯度优化可以应用于架构搜索。DAS的主要目标是找到转换层的超参数(滤波器大小、通道数量和分组卷积)。在Maskconnect[20]中观察到,基于细胞的网络结构通常遵循预先确定的块之间的模式,例如。,每个块只连接它的前两个块[21]或所有前面的块[22]。类似地,[23,24]也在连续域上搜索网络结构,其目的只是对特定结构进行微调。

2.2 DARTS

可微架构搜索(DARTS)[3]方法通过采用可微架构参数搜索来解决上述挑战。DARTS的相关工作不需要在一个离散的体系结构集合中搜索,而是在一个连续和可微的搜索空间中搜索最优操作,在这个空间中,鲁棒的单元结构可以通过梯度下降有效地确定。DARTS的一个重要问题是,易于优化的操作符(如跳过连接和池操作)可能在早期阶段占主导地位,因此阻碍了更强大操作的选择(如大型内核的卷积)。这个问题可以通过在早期冻结架构参数A的更新来缓解,并允许权重参数W更好地初始化卷积操作[8,25,26,10]。在p - dart和DARTS+[25,27]中,执行了一种强大的策略来控制细胞内跳过连接的数量到一个预先确定的值。p - dart[25]的渐进式搜索,根据混合操作权值,逐渐增加网络深度,减少候选操作。这种方法缓解了由于深度增加而引起的计算过多的问题,减少了搜索的不稳定性。

2.3将评价过程嵌入到搜索过程中

将评估过程嵌入到搜索过程中是NAS优化的另一个问题,这在以前的工作中没有明确执行。V为了克服离散化间隙[14]的问题,设计了多种方法(如早期停止[11,27]和渐进优化[25,28])来解决这一问题。在Fair-DARTS[29]中发现,随着搜索的进行,弱操作符(如跳过连接)的数量会增加,这会导致操作符之间的不公平竞争。fairdarts[29]是通过降低操作概率来解决这个问题的,这样每个运营商都有平等的机会发展架构的优势。与我们提出的MS-DARTS相比,Fair-DARTS只是一个间接的解决方案,最终无法处理离散化问题。SGAS[28]通过贪婪策略规避了离散化问题,以防止有问题的跳跃连接或其他弱操作符生效。然而,由于这种贪婪的低估,可能好的操作也会被删除。在dart中经常观察到,结果体系结构在搜索阶段具有良好的准确性,但是在实际测试阶段表现较差。他们认为,这种崩溃是由排他竞争环境中的不公平优势造成的,在这种环境中,跳过连接过度受益,从而导致聚合。为了抑制这种优势超越,他们将竞争转化为合作,每个操作都是独立的。然而,这是一种间接的方法。

2.4稳定飞镖

除了上述问题之外,DARTS在每个建筑搜索时代只优化了单一结构上的一个点。在评价阶段,经过离散化后,这种优化方法可能不能很好地推广。基于dart的算法会在除架构权重最大的边之外的每条边上进行操作。因此,dart的稳定性和泛化性受到了广泛的挑战。在从基于投影的连续版本衍生出离散架构时,可能会出现显著的性能下降。提出了几种方法[11,30]来研究dart的稳定性和通用性问题。Zelaet al.[11]经验地指出,稳定性与结构A验证损失函数Hessian矩阵的主特征值 λ m a x A λ_{max}^A λmaxA高度相关。他们还提出了防止 λ m a x A λ_{max}^A λmaxA爆炸的早期阻止标准。其他方法,如。为了解决dart的稳定性问题,提出了部分信道连接[8]、计划丢弃路径[6]和结构参数的正则化方法。

三:方法

基于均值移位的可微架构搜索。我们的目标是构造一种新的可微结构搜索算法,该算法在搜索过程和评估过程之间具有稳定的精度差距。同时,我们可以尽可能减少搜索成本。在DARTS搜索过程中,利用机器学习算法Mean-Shift[16]设计了一个摄动(扰动)过程,实现了搜索稳定性和搜索代价的平衡。

3.1 dart和Mean-Shift

DARTS[3]是一种基于细胞的神经结构搜索方法。它在节点的有向无环图(DAG)上工作,其中每个节点代表一组特征映射[31]。具体来说,每个节点 x ( i ) x^{(i)} x(i)都是conv层得到的feature map的潜在表示。让o(.)表示要应用到节点 x ( i ) x^{(i)} x(i)的操作,例如。卷积、池化、跳过等。每个连接节点 x ( i ) x^{(i)} x(i) x ( j ) x^{(j)} x(j)的有向边e(i,j)都与一个操作 o ( i , j ) o^{(i,j)} o(i,j)相关联,该操作将节点 x ( i ) x^{(i)} x(i)转换为节点 x ( j ) x^{(j)} x(j)对于i < j。让O表示所有可能的候选操作集。DAG的每个中间节点都是根据它的所有前驱节点来计算的 x ( j ) = ∑ i < j O ( i , j ) ( x ( i ) ) x^{(j)}=\sum_{ix(j)=i<jO(i,j)(x(i))。图1(左)为DARTS[3]的细胞结构。如图2(a)所示,为使搜索空间连续可微,将结点 x ( i ) x^{(i)} x(i)变换为结点 x ( j ) x^{(j)} x(j)的每一个运算 o ( i , j ) o^{(i,j)} o(i,j)替换为一个连续的运算 o ‾ ( i , j ) \overline{o}^{(i,j)} o(i,j),这是通过混合所有可能的候选操作与SoftMax:

在这里插入图片描述

,其中, α o ( i , j ) α_o^{(i,j)} αo(i,j)是nodex(i)到nodex(j)运算O(.)的权重参数, o ‾ ( i , j ) ( x ) \overline{o}^{(i,j)}(x) o(i,j)(x)表示从nodex(i)到nodex(j)的所有运算输出的加权和的混合结果。让w分别表示Eq.(1)中的网络权值, l v a l i d l_{valid} lvalid l t r a i n l_{train} ltrain分别表示外部目标和内部目标。在DARTS中,搜索结构的数学表示为一个d维加权向量A= α o ( i , j ) α_o^{(i,j)} αo(i,j)。DARTS的目的是学习连续加权变量集A通过解决以下双层优化:

在这里插入图片描述

在架构搜索的最后,将 o ‾ ( i , j ) \overline{o}^{(i,j)} o(i,j)替换为最相似的运算(图2(b)),得到一个离散的架构(图2©):

在这里插入图片描述

尽管DARTS算法效率很高,但由于算法在每个搜索历元中都是针对单纯形上的单点进行优化,因此不能保证该方法能很好地推广到评估试验中。[32]中报道,基于darts的算法通常会产生恶化的架构,当使用Eq.(2)从连续的混合架构推导出实际的离散架构时,会产生显著的性能下降。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第3张图片

Mean-shift (MS)[33,34,16]是一种通过核密度估计[35]估计概率密度函数(PDF)模态的非参数迭代算法。该算法的原理是通过相邻点的加权平均迭代更新模态估计。这种加权平均估计带来平滑效应,更稳定地找到一个平稳点。LetD:={Ap∈Rd}Np=1表示ndata point(或network architectures)的集合Ap, andΩ:={ωp>0}Np=1表示weight ωpto weighted每个achap的集合。另外,设K(A)为多元正态核,即。, K(A) = (2π)−2dexp ?−kAk2 2 ?(3)其中kak2是a的范数。(4)其中a K(a)dA= 1, NP p=1ωp= 1,其中a K(a)dA= 1ωp= 1。令k(z)为一个剖面,即k(z) =c·exp(−z/2),其中是常数,z是标量∈(0,∞)。高斯核函数g (z) =−k0(z)可以看作是k的一种特殊情况。由kk确定的观测窗口内估计密度的加权平均位移δ a可以用[16]表示:

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第4张图片

假设是在第t次迭代时估计的解。MS算法更新At+1的新估计如下:At+1=At+δtA。(6)

迭代持续到?At+1−At?2是收敛的。我们采用这种MS算法来调整体系结构参数,以寻找一个稳定的体系结构,保持精度和更少的训练时间。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第5张图片

图2:DARTS[3]训练搜索空间,从连续阶段到离散阶段。

3.2 dart的Mean-Shift动机

如前所述,基于dart的方法对于快速的基于梯度的架构搜索非常有利,但是从发现的连续架构转换到离散架构会导致显著的性能下降。尽管基于dart的方法可以减少训练阶段的验证损失,但在计算最终架构评估时,它仍然可能在数值爆破方面不稳定[11,27]。这种不稳定性是由于由于尖锐极小值[36]问题而选择SGD来训练过度参数化的深度神经网络造成的。尖锐极小值将使所找到的解对扰动(或噪声)高度敏感,并由于其对训练数据[37]的高过拟合而具有不好的泛化性。在dart中,有效性的急剧极小值 l v a l i d l_{valid} lvalid问题可以解释为什么架构A上的一个小扰动δ会导致验证精度的显著降低(例如,从90%以上降低到小于10%[32])。回避尖锐极小值是否能提高泛化性是一个悬而未决的问题。

本文提出的基于ms的DARTS通过平滑Lvalid的景观来解决上述问题。下面我们用我们的公式比较一个相关的工作[32]。在[32]中,Eq.(1)中的最佳权重w∗(A)被重新定义为beW(A)如下:

在这里插入图片描述

通过求解,可以获得最佳的架构 A ∗ A^∗ A

在这里插入图片描述

Eq.(7)解决了一个稳健性优化问题[32],最大限度地减少围绕一个架构a的最坏情况的损失。事实上,在每个抽样迭代中,Wis仅通过更改原始架构一次来重新评估。然而,这不能提供足够的解决方案,以平坦的损失景观的 l t r a i n l_{train} ltrain,这是至关重要的稳定性控制。相比之下,我们提出ms - dart,在最小化 l t r a i n l_{train} ltrain之前,利用Eq.(7)中的mean-shift算法对架构A进行递归更新,可以有效地平滑景观,从而获得更好的精度和稳定性。这种递归更新A效率的另一个好处是,因为查找W最小化 l t r a i n l_{train} ltrain所需的迭代次数更少。此外,ms - dart还可以解决最小值的平坦性问题。在训练中,使最小[37]更平坦,从而在建筑性能上有更好的稳定性。

3.3基于鲁棒均值漂移的dart

设计健壮的DARTS架构的核心挑战是考虑如何最好地增加稳定性,同时减少有效值 l v a l i d l_{valid} lvalid急剧极小所造成的优化差距.在Eq.(7)中,用最坏的情况在原始建筑的一个邻域附近搜索a来估计最佳权重 W ‾ \overline{W} W。然而,这个优化器不能提供足够平坦(或平滑)的影响损失景观,这是至关重要的稳定性控制。我们的工作受到了最近在理解深层神经网络损失表面方面的进展的启发。在[38]中,izmailoet .提出了一种随机加权平均(SW a)方案,通过平均训练过程中不同检查点的权重来平滑损失面。在[39]中,使用参数平均方案来创建自然语言处理任务中的集成。使用平均来加速随机近似算法的想法可以追溯到20世纪60年代的[40]。“平均”形成了本文的核心思想,通过沿着SGD轨迹平均多个点,为建筑搜索生成平坦的最小值。本文的另一个新颖之处在于,在训练过程中预先考虑了参数搜索的方向,通过移位操作实现更快的收敛。本文提出的Mean-Shift dart可以有效地平滑有效性的尖锐景观 l v a l i d l_{valid} lvalid,通过使用Eq.(6)更新架构A,其中 δ A δ_A δA是通过增强或滤波方法获得的。则式(7)可重新表示为:

在这里插入图片描述

我们接下来解释拟议的MS-DART基于mean-shift参数调谐如何解决上述在dart中发现的体系结构A的不稳定性。将结构参数α表示为一个d维向量。假设在半径?, eachAp∈Rd。与SW A方案[38]不同,我们引入了一个带宽参数来控制均匀分布在?扰动δ ain Eq.(7)的采样。具体来说,高斯分布的连续位置序列

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BhxYPlRv-1640075505559)(MS-DARTS Mean-Shift Based Differentiable Architecture Search.assets/image-20210901135650796.png)]

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第6张图片

其中ω是用来称重atp的。在前面的优化工作之后,为更差的情况赋予更高的权值,可以更快地收敛并有效地生成自适应权值。我们还让ω的值与ap的验证损失成正比。这种设计可以增加采样体系结构的影响,在我们的MS采样过程中产生比其他样品更差的精度。这可以增强所需的景观扁平化,从而改进健壮的架构搜索。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第7张图片

给定一个初始架构a0,应用均值移位滤波来获得一个权重,平滑的架构,接下来的几个迭代步骤。给定初始架构a0att = 0,我们取样本{Ap}p=1,…在它的半径内。然后使用Eq.(11)来计算δt=1Ato获得a1。这些步骤可以迭代地进行,直到收敛。算法1详细描述了该MS更新方案的计算步骤a。

在这里插入图片描述

ms - dart搜索和更新方案。DARTS首先搜索一个初始架构A。然后采用均值移位对带宽内的架构进行采样,找出性能较差的架构。如前所述,为了更好地避免陷入糟糕的局部最小值,我们将更多地考虑池执行的体系结构。然后应用Eq.(9)更新权重。算法2详细描述了ms - dart的迭代搜索和更新方案。

3.4 ms - dart带宽影响搜索稳定性

Eq.(11)中的带宽参数控制ms - dart体系结构搜索的平滑效果。我们接下来讨论hw的影响。r .t。飞镖的稳定性。定义带带宽参数的核函数Kh(a) = (2πh)−2dexp(−1 2kA hk2),并将dart损失函数l (a)表示为:

在这里插入图片描述

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第8张图片

ik ~ Ak2<2h,最大绝对值为1 hKh(属于A);则为(1 hk ~ Ak2−1 h)Kh(属于A)。需要注意的是:∇2L(A)的最大特征值与∇2Kh(A - Ap)的特征值之和有关。从公式(14)可以看出,特征值随着带宽的减小而减小。最近的工作[11]表明,dart的性能强烈地依赖于最大的绝对特征值∇2L(A)。在优化过程中,最大特征值越小,dart性能越好。实验结果表明,当选择较大的带宽时,算法的精度和收敛速度都有所提高。这说明ms - dart的性能很大程度上受带宽选择的影响。虽然很明显,太小的带宽会导致嘈杂的结果,而太大的带宽会导致过度平滑的景观,但我们根据经验确定一个合理的大带宽,可以产生最好的理想平滑的景观。一个很好的策略是沿着优化轨迹跟踪每个样本的带宽,以找到最佳的架构。因此,我们提出了一个合理的主张,更大的带宽导致更好的平滑景观。然而,过大的带宽会使景观过于平滑。另一方面,带宽过小会导致有噪声的结果,重要的数据样本没有得到充分的探索。

四:实验与结果

在本节中,我们首先在NAS-bench-1shot1[41]数据集上通过3个搜索空间实验ms - dart,通过每个历元特征值测试搜索稳定性。特征值越低,在搜索阶段越稳定。然后对结构参数A值进行ms - dart评估,证明了该方法具有较宽的最小值。此外,我们评估了ms - dart在CIFAR-10[15]、CIFAR-100[42]和ImageNet[43]数据集上的图像分类任务,并比较了其与最先进的(SoTA) NAS模型的效率和准确性。继已有的实验设置工作[11,32]之后,我们使用包括跳跃连接在内的7个操作符来创建4个不同的搜索空间。我们进一步将CIFAR-10上发现的细胞转移到CIFAR-100和ImageNet上进行测试。最后,我们测试了几个带宽(h)值来证明我们在3.4章中的建议。下面的实验表明,适当的带宽(h)将有效地影响ms - dart搜索阶段的稳定性。

4.1 NAS-bench-1shot1实验

该数据集[41]由基于CIFAR-10的3个搜索空间组成,提供了可微NAS的连续空间到离散空间的映射。详情见[11,32]。图3显示了我们的模型与五种SoTA方法,即DARTS [3], PC-DARTS [8], GDAS[44]和SDARTS-RS/ADV[32]在所有3个搜索空间上的比较。我们对每个NAS算法进行了100个周期的运行,对搜索稳定性和泛化性进行了全面透彻的分析。所有性能比较都是在V100 GPU上进行的。pc飞镖优于原来的飞镖。GDAS、sdart - rs和sdart - adv优于pc - dart。然而,GDAS面临着过早收敛到次优架构的问题。我们的ms - dart优于所有五种比较模型。如图3所示。ms - dart的最终特征值比其他所有特征值都要低,显示了它对dart搜索稳定性的搜索能力。

4.2更宽极小值实验

α t α _t αt表示第t个体系结构, α o p t α _{opt} αopt表示优化后的最终体系结构。然后定义 α t α _t αt为|| α t α _t αt α o p t α _{opt} αopt||的α-距离。为了证明我们的方法可以得到更宽的最小值,图4绘制了CIFAR-10上的训练损失与α-距离的关系。很明显,火车损失的形状。α -距离曲线对于我们的ms - dart比原始的dart要宽得多,这表明ms - dart确实收敛到一个更宽的解。同时也证明了ms - dart的稳定性优于原dart。虽然原始的dart比ms - dart得到更低的训练误差,但它的极小值导致了比ms - dart更高的评估测试误差。我们注意到ms - dart的评估测试误差为2.51,低于CIFAR-10上原dart的评估测试误差2.76(见表1)。此外,我们在图4的实验中发现,由于最小值更宽,我们的ms - dart比以前的dart工作收敛得更快。我们进一步将搜索周期从50个减少到40个,这一变化使得训练搜索时间更少。验证精度曲线也证实了相同的观测和结论。ms - dart验证精度曲线较原dart验证精度曲线平坦。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第9张图片

图3:NAS-bench-1shot1上建筑搜索Hessian矩阵最大特征值轨迹比较

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第10张图片

图4:Cifar-10训练搜索过程中的α-distance。

虽然ms - dart的验证精度低于dart,但更平坦的精度表面使得ms - dart的测试精度更高。

4.3 Cifar10数据集实验

CIFAR-10培训。我们利用MS-DARTS确定了cifar - 10[15]上的卷积细胞,然后通过叠加学习到的细胞来扩大网络。图5(a)显示了具有7个有序节点(2个输入节点,4个中间节点,1个输出节点)的学习单元;将其中8个学习单元进行堆叠,形成放大的单元网络。每个节点都用预测的操作连接到前面的节点。习得的细胞还与前两个细胞的输出相连接。DARTS[3]中的持续搜索架构包括以下操作:max_pooling_3x3,avg_pooling_3x3,skip_connection,sep_conv_3x3, sep_conv_5x5,dil_conv_3x3,dil_conv_5x5。与[45]不同的是,我们的结果表明,正常和约简单元都是由从搜索空间中自动选择的操作组合而成的。我们在CIFAR-10数据集上设置了40个批次大小为64的epoch,该数据集被分为训练集和验证集。我们采用与[3]相同的权重优化,使用SGD优化器,动量为0.9,权重decay3×10−4,学习率从0.025到10−3退火。我们发现,对于不同的搜索空间和数据集,t = 2,3的实验结果最好,ofT= 2,3,4,5和N= 2,3,4。对于搜索空间s5,在单个GPU上,每个epoch平均花费大约6分钟。建筑搜索训练大约需要11个小时。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第11张图片

评价CIFAR-10。父细胞结构由20个学习细胞(18个正常细胞和2个还原细胞)和36个通道组成。图5(b)显示了评估体系结构。表1显示了4个随机种子独立运行的(均值±标准差)的评价。最好的架构是基于准确性而选择的。与sdart - adv[32]相比,ms - dart只需要不到一半的训练时间,准确率有所提高。图6显示了ms - dart在CIFAR-10数据集上的正常和还原细胞,测试误差为2.51±0.02。

4.4无参数操作实验

如2.3章所述,过多的无参数操作,如noise, skip-connection, null,会导致生成的体系结构的性能崩溃,尽管这些操作在混合的连续体系结构中可以使体系结构在训练搜索过程中更快地收敛。R-DARTS[11]提出了4个简化的搜索空间,其中只包含无参数和部分候选操作,用于测试搜索算法的正则性。我们实现ms - dart和以前的dart在这4个搜索空间(S1-S4)上工作于2个数据集(Cifar-10/Cifar-100)。CIFAR-10 / Cifar-100训练搜索。同样在4.3章中设置,我们的ms - dart搜索算法生成的正常单元格和约简单元格将转移到图5(b)架构中。结果如表2所示。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第12张图片

ms - dart在CIFAR-10上搜索架构。(b) ms - dart生成用于CIFAR-10评价的架构。

Figure 5: Training search and evaluation stacked architecture (a) The MS-DARTS searched architecture on CIFAR-10.(b) MS-DARTS generated architecture used for evaluation on CIFAR-10.

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第13张图片

Figure 6: MS-DARTS Normal and Reduce Cell. (a) MS-DARTS Normal Cell (b) MS-DARTS Reduction Cell.

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第14张图片

Table 2: Comparison with SoTA DARTS-based methods on CIFAR-10 and CIFAR-100 datasets.

评价cifar - 100。与《cifar 10》相反,《cifar 100》拥有100个职业和更多的训练/测试图像。我们使用CIFAR-100生成的架构(学习单元)并在CIFAR-100[42]上进行评估。为了与其他DARTS算法进行比较,我们使用了与之前工作相同的训练设置,不同于4.2章,父架构由8个学习的细胞和16个通道组成。每个还原单元后通道数增加一倍。母体系结构由600epoch使用批大小64和SGD优化器训练,动量为0.9,学习速率余弦从0.025到0。为了正则化,调度下降路径以0到0.2线性增加,辅助塔权重为0.4,切断[48]数据增加。在这个实验中,所有其他参数和优化函数都保持不变。使用带有4个搜索空间的CIFAR-100数据集执行训练和验证任务(参见r - dart[11])。表2显示了ms - dart方法与从CIFAR-10训练转移到CIFAR-100评估的其他SoTA方法在4个搜索空间的比较。显然,sdart - adv优于dart、r - dart、dart - es和pc - dart。我们的MS-DARTS也优于所有的SoTA DARTS方法与较低或类似的变化。

4.5 ImageNet数据集实验

评价ImageNet。ImageNet Classification[43]是由alexet提出的高分辨率图像分类数据集,该数据集由1000个不同类别和120多万幅图像组成。尽管ImageNet从2012年开始发布,但它仍然是图像分类任务中最著名的数据集。不仅在分类工作中,许多目标检测和图像分割任务也使用该数据集来训练卷积骨干。鉴于此,我们接下来比较ms - dart和ImageNet上的SoTA方法。与之前的研究r - dart[11]和s - dart[32]相似,我们构建的网络由14个细胞和48个通道组成。使用SGD优化器对300个纪元的参数进行训练,退火学习率初始化为0.5,动量为0.9,权重衰减3×10−5。表3比较了ImageNet评估中的11种基线方法。sdart - rs和sdart - adv的性能都比其他dart好很多。ms - dart再次优于其他基于SoTA dart的方法。

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第15张图片

Table 3: Comparison with SoTA image classifiers on ImageNet.

MS-DARTS: Mean-Shift Based Differentiable Architecture Search_第16张图片

表4:NASbench-1shot1上几个带宽值的特征值比较

Table 4: Comparison eigenvalues with several bandwidth value on NASbench-1shot1 s1.

需要注意的是,包括部分通道连接[8]在内的其他正则化技术可以进一步提高精度[32]。为了公平比较,这些正则化技术[25]不在这里。

4.6 w.r .t ms - dart稳定性的带宽效应实验

4.6 Experiments of Bandwidth Effect w.r .t MS-DARTS Stability

为了验证3.4章的假设,我们设置了几个超参数带宽(h),在其他超参数的相同设置下,如采样半径(?)、均值移位迭代(T)、采样点数(N)和训练搜索历元(E),我们在NAS-bench-1shot1数据集上测试了不同带宽值下ms - dart稳定性的影响。表4给出了训练搜索时各带宽值(h)的特征值(mean±std)。拟合我们在上面提到的建议,一个合理的大带宽h可以产生最佳期望的平滑景观和较低的特征值,但太大的带宽h会过度平滑景观。

五:结论

我们提出了一种基于均值移位的DARTS方法来稳定和改进DARTS网络结构搜索。实验结果也证明,均值偏移设计可以平滑基于dart的NAS造成的急剧极小值,从而避免显著的性能下降。我们还研究了带宽超参数的选择和均值漂移滤波的收敛性。在CIFAR-10、CIFAR-100和ImageNet上的大量实验表明,我们的方法优于各种最先进的DART方法。所提出的dart稳定是有利的和通用的。ms - dart具有很强的实用性,可以在GPU计算的基础上处理高分辨率图像。

未来的工作。ms - dart可以扩展到其他应用领域中探索额外的网络组件,以在更短的时间内生成精度更高的模型。

你可能感兴趣的:(论文实验,深度学习,人工智能)