Understanding and Improving Fast Adversarial Training

我们表明,在FGSM中添加一个随机步长并不能防止灾难性过拟合,而且随机性本身并不重要——它的主要作用只是降低扰动的大小。此外,我们表明灾难性过拟合并不是深度和超参数化网络所固有的,而是可以发生在具有几个滤波器的单层卷积网络中。在极端情况下,即使是单个滤波器也会使网络局部高度非线性,这是FGSM训练失败的主要原因。基于这一观察结果,我们提出了一种新的正则化方法GradAlign,该方法通过显式地最大化摄动集中的梯度对齐来防止灾难性过拟合,并提高了FGSM解决方案的质量。因此,GradAlign可以成功地将FGSM训练应用于更大的'∞-扰动,并减少多步对抗训练的差距。

文章的主要贡献:

  1. 我们首先表明,不仅FGSM训练容易出现灾难性过拟合,而且最近提出的快速对抗性训练方法。然后,我们分析了为什么在FGSM中使用随机步长有助于略微减轻灾难性过拟合,并表明它简单地归结为降低扰动的平均幅度。
  2. 然后,我们讨论了深度网络和单层卷积网络中灾难性过拟合和局部线性背后的联系,其中我们表明,即使是单个滤波器也会使网络局部非线性,并导致FGSM训练失败。
  3. 此外,我们还为这个案例提供了一个理论解释,这有助于解释为什么FGSM AT在训练开始时是成功的。最后,我们提出了一种正则化方法GradAlign,该方法通过显式地最大化摄动集中的梯度对齐来防止灾难性过拟合,从而提高了FGSM解决方案的质量。

 The role and limitations of using random initialization in FGSM training

 随机步长FGSM不能解决灾难性过拟合问题

新的解释:随机步长提高了线性逼近的质量。在FGSM中使用随机步长可以保证减小预期的扰动大小。这个简单的观察在下面的引理中被形式化了。

 证我们首先注意到上限在[1/\sqrt3\sqrt d \epsilon,\sqrt d \epsilon]范围内,因此总是小于或等于|| \delta_{FGSM}||_2 = \sqrt d \epsilon

在所有可能的'∞-范数ε扰动中,具有较小' 2-范数的扰动受益于更好的线性逼近。由二阶可微函数的泰勒展开得到:

 Understanding catastrophic overfitting via gradient alignment

 FGSM什么时候能准确地解决内部最大化问题?

gradient alignment

 这个量很容易解释:对于半径为ε的'∞-球内的线性模型,它等于1;当输入梯度几乎相互正交时,它近似为零。

Analysis of gradient alignment in a single-layer CNN.

Understanding and Improving Fast Adversarial Training_第1张图片Understanding and Improving Fast Adversarial Training_第2张图片

 引理表明,对于随机初始化的具有足够多的图像补丁k和滤波器m的cnn,梯度对齐不能小于0.5。这与我们在权值不再i.i.d的灾难性过拟合后观察到的0.12值形成对比。我们注意到0.5的下界是相当悲观的,因为它适用于任意大的ε。

其中滤波器w和偏置b在点x和x + η处的梯度对齐有一个简单的表达式:

Understanding and Improving Fast Adversarial Training_第3张图片

 

你可能感兴趣的:(深度学习,人工智能,神经网络)