ZO-AdaMM

这里是引用

论文信息

题目
ZO-AdaMM: Zeroth-Order Adaptive Momentum Method for Black-Box Optimization

作者
Xiangyi Che, Sijia Liu2, Kaidi Xu3, Xingguo Li4, Xue Lin3Mingyi Hong, David Cox

会议:Conference on Neural Information Processing Systems (NeurIPS 2019),

单位:

论文动机

与fist order(FO)随机方法相比,ZO方法的噪声梯度变化较大,这就造成这会导致较差的收敛性能和/或函数查询效率,为了缓解这一问题signSGD方法被提出,增强了随机梯度估计的鲁棒性,尽管ZO-signSGD的收敛速度比许多现有的ZO算法快,但只能保证收敛到解决方案的邻域。我们看到了sign-SGD的作用,而在随机梯度算法中,比如 Adam, RMSProp, AMSGrad, Padam, and AdaFom等算法中,业通用用到了sign信息,而AdaMM具有符号下降和方差适应的双重优势。那我们考虑是不是可以将AdaMM应用于ZO领域。

本文方法

问题描述
本文方法
ZO-AdaMM_第1张图片
特别是,与AdaMM相比,ZO-AdaMM在实践中更喜欢使用较小的 β 2 β_{2} β2值,这意味着强烈希望标准化当前的梯度估计值( β \beta β越小,)。在特殊情况下 β 1 , t = β 2 → 0 \beta_{1, t}=\beta_{2} \rightarrow 0 β1,t=β20 and v ^ t = v t \hat{\mathbf{v}}_{t}=\mathbf{v}_{t} v^t=vt, ZO-AdaMM 能够近乎ZO-signSGD方法(因为 V ^ t − 1 / 2 m t = m t / v t = g ^ t / g ^ t 2 = sign ⁡ ( g ^ t ) \hat{\mathbf{V}}_{t}^{-1 / 2} \mathbf{m}_{t}=\mathbf{m}_{t} / \sqrt{\mathbf{v}_{t}}=\hat{\mathbf{g}}_{t} / \sqrt{\hat{\mathbf{g}}_{t}^{2}}=\operatorname{sign}\left(\hat{\mathbf{g}}_{t}\right) V^t1/2mt=mt/vt =g^t/g^t2 =sign(g^t))。ZO-AdaMM可以拥有ZO-signSGD和ZO-SGD的双重优势。

ZO-AdaMM方法为什么很难分析:
ZO-AdaMM的收敛性分析要比现有的ZO方法更具挑战性,这是因为随机采样,ZO梯度估计,动量,自适应学习率和投影操作之间涉及耦合。特别地,本沦为在投影步骤中使用马哈拉诺比斯距离在收敛保证中起关键作用。

论文从理论上分析了ZO-AdaMM方法的查询效率。(具体理论证明见论文)

方法对比

之前论文对比

  • 这篇论文ZO梯度估计采用的是Forward difference,在《Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models》采用的是中心差分(central difference)

与ZO-signSGD对比:
与fist order(FO)随机方法相比

  • ZO方法的噪声梯度变化较大,这就造成这会导致较差的收敛性能和/或函数查询效率,为了缓解这一问题signSGD方法被提出,增强了随机梯度估计的鲁棒性;
  • 尽管ZO-signSGD的收敛速度比许多现有的ZO算法快,但只能保证收敛到解决方案的邻域
    ZO-AdaMM_第2张图片
    与其他随机梯度优化方法在收敛性与查询效率对比
    方法优势与缺陷
  • 对于无约束的非凸优化,ZO-AdaMM的收敛对d的依赖性比ZO-SGD,ZO-SCD和ZO-signSGD更差,但是与ZO-SGD相比,它对 µ µ µ的选择要比ZO-SGD小,查询复杂度比ZO-SCD小,并且没有T独立的收敛偏差。同样,对于约束非凸优化,ZOAdaMM产生的速率与ZO-ProxSGD相似,这也暗示了ZO投影SGD(ZOPSGD)。
  • 对于约束凸优化,ZO-AdaMM的速率比ZO-SMD差O(d),但ZO-AdaMM的μ-尺寸依赖性得到了显着改善。ZO-AdaMM的d依赖性(与µ的选择无关)比ZO-SGD差。
  • 特别注意的是,尽管有界ZO梯度估计范数需要更严格的假设,但与FO AdaMM相比,我们的利率会降低O(√d)。

实验结果

Per-image adversarial perturbation:对比了不同随机梯度优化方法的差别

  • 就攻击损失的快速收敛和相对较小的扰动而言,ZO-AdaMM始终优于其他ZO方法。我们还注意到,就最终迭代中的大攻击损失或大失真而言,ZO-signSGD和ZO-NES的收敛精度较差(因为ZO-signSGD仅收敛到一个解决方案的邻域,并且ZO-NES可以被视为基于欧几里得投影的ZO-signSGD)
    ZO-AdaMM_第3张图片

Universal adversarial perturbation:

  • 与其他ZO算法相比,ZO-AdaMM具有最快的收敛速度,可以达到最小的对抗性扰动
  • ZO-AdaMM有非常高攻击的成功率以及非常低的distortion

ZO-AdaMM_第4张图片

总结:

ZO-AdaMM,这是将自适应动量方法与ZO优化相集成的第一项努力。从理论上讲,论文表明ZO-AdaMM具有凸和非凸约束优化的收敛保证。与(一阶)AdaMM相比,它的减速因子为O(√d)。特别是,我们建立了一个新的基于Mahalanobis距离的收敛度量,其在表征ZO-AdaMM对非凸约束问题的收敛行为方面具有必要性和重要性。

下步工作

你可能感兴趣的:(梯度下降相关算法,算法,深度学习)