[论文阅读笔记]Towards Deep Learning Models Resistant to Adversarial Attacks

Towards Deep Learning Models Resistant to Adversarial Attacks(ICLR2018)

文章简述:
本文主要是在研究防御的问题,并提出了PGD这种first-order攻击方法,其中增强模型robust的方法有以下两种:

  • 增大网络容量
  • 使用PGD方法进行对抗训练

如何训练更加robust的模型?
下面这个公式可以看成一个鞍点的问题,即inner-maxouter-min

  • inner-max: 目标是找到原始数据中所对应的对抗样本,使其能够实现高损失
  • outer-min: 目标是寻找到合适的网络参数,使得模型的robust提升。

projected gradient descent (PGD):
PGD即muti-step FGSM,且PGD算是非常强的first-order攻击,基本能防御PGD的网络,就可以防御其他任何one-order攻击

解释为什么进行对抗训练后在原test集上准确度反而下降?
其中中间和右边图的框框代表的就是$L_{\infty}-ball$,可以发现,将对抗样本加入训练集中后,模型为了减小整体损失,其决策边界就会更加非线性(原始数据集是线性可分的),而这就会产生类似于在原数据集上"过拟合"现象。

[论文阅读笔记]Towards Deep Learning Models Resistant to Adversarial Attacks_第1张图片

模型的capacity
可以看到,随着模型的capacity变大,不仅在原始数据集上表现会变好(虽然有限),而且对于(one-step)对抗样本的抵抗能力也会增强。

[论文阅读笔记]Towards Deep Learning Models Resistant to Adversarial Attacks_第2张图片

由于这些笔记是之前整理的,所以可能会参考其他博文的见解,如果引用了您的文章的内容请告知我,我将把引用出处加上~
如果觉得我有地方讲的不好的或者有错误的欢迎给我留言,谢谢大家阅读(
点个赞我可是会很开心的哦)~

你可能感兴趣的:(深度学习/机器学习,对抗攻击,adversary,attack)