【论文笔记】【ICLR2018】Towards Deep Learning Models Resistant to Adversarial

个人总结:本文方法在19,20年的多数相关文章中都作为对比实验出现比如上述文章、AdvGan、AdvCam等,可见这篇文章的提出方法的效果还是很可以的。这篇文章提出了一个Min-Max的攻击&防御融为一体的框架,在该框架控制下使用PGD(迭代FGSM的一般方法)生成的对抗样本进行对抗训练,提高模型的鲁棒性,抵制一系列的first-order attack(基于梯度)。不过本文中提出解决方法采用的近似Danskin定理的部分没太看懂,还需进一步了解。

Abstract

Recent work has demonstrated that deep neural networks are vulnerable to adversarial examples—inputs that are almost indistinguishable from natural data and yet classified incorrectly by the network. In fact, some of the latest findings suggest that the existence of adversarial attacks may be an inherent weakness of deep learning models. To address this problem, we study the adversarial robustness of neural networks through the lens of robust optimization. This approach provides us with a broad and unifying view on much of the prior work on this topic. Its principled nature also enables us to identify methods for both training and attacking neural networks that are reliable and, in a certain sense, universal. In particular, they specify a concrete security guarantee that would protect against any adversary . These methods let us train networks with significantly improved resistance to a wide range of adversarial attacks. They also suggest the notion of security against a first-order adversary as a natural and broad security guarantee. We believe that robustness against such well-defined classes of adversaries is an important stepping stone towards fully resistant deep learning models.

最近的研究表明,深度神经网络在对抗样本中是脆弱的——输入几乎无法与自然数据区分,但网络却错误地分类。事实上,一些最新的发现表明,对抗性攻击的存在可能是深度学习模型固有的弱点。为了解决这一问题,我们从鲁棒优化的角度研究了神经网络的对抗鲁棒性。这种方法为我们提供了关于这个主题的许多先前工作的广泛而统一的观点。它的原则性质也使我们能够识别训练和攻击神经网络的方法,这些方法是可靠的,在某种意义上是普遍的。特别是,它们规定了一项具体的安全保证,以保护不受任何对手的攻击。这些方法让我们训练网络,以显著提高对广泛的敌对攻击的抵抗力。它们还提出了对抗一级对手的安全概念,作为一种自然和广泛的安全保障。我们相信,对这种定义明确的敌手类别的鲁棒性是迈向完全抗深度学习模型的重要踏脚石。

总结:

本文提出了Min_Max最优化框架,通过这个框架可以将目前对抗手段和防御手段结合起来,提高鲁棒性。这篇文章只理解想法部分还是较为简单,但是深入了解就很晦涩。
在这里插入图片描述
L(θ,x+δ,y) 是无目标标签攻击者的目标函数,它的物理意义就是寻找合适的 δ 使得损失函数在( x + δ , y )这个样本点上的函数越大越好,这样才能让模型在它自己正确的标签上的损失特别大,从而导致正确标签对应的logit很小。我们可以使用PGD、FGSM、I-FGSM等方法去寻找对抗样本。
外层的 min ρ(θ)就是防御者的目标函数,它们的目的是为了让模型在遇到对抗样本的情况下,整个数据分布上的损失的期望还是最小,如果能做到这一点,那么再遇到对抗样本的时候也不用担心,因为这种对抗样本不能产生很大的损失值。通过对抗训练来完成这个min。
采用的PGD的方法就是projected gradient descent,也就是多步FGSM。
理论上只要解决这个min_max攻击防御为一体的问题,就可提高抵抗一系列的对抗样本的能力。但存在的问题是这个max和min方法都是non-convexity 或 non-concavity的。作者通过对抗训练并验证发现对抗训练后的网络的loss都非常集中并且非常小。
【论文笔记】【ICLR2018】Towards Deep Learning Models Resistant to Adversarial_第1张图片
基于这个发现,作者认为:通过PGD方法找到的对抗样本进行训练使得在这些对抗样本上神经网络的loss很小,那么这个神经网络也就可以抵抗其他的对抗样本。尽管这些对抗样本可能跟PGD方法找到的对抗样本很不一样,但是它的loss是相似的,既然神经网络可以让PGD对抗样本的值很小,那么当遇到其他对抗样本,它的loss也不会高的那里去。

思考?:

仅仅是通过类似于FGSM的一阶攻击的对抗训练就能提高鲁棒性嘛?感觉效果有点过于夸张了。。。

你可能感兴趣的:(图像识别系统对抗,神经网络,机器学习,人工智能,深度学习)