[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)

SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(2019 ICCV)

文章简介:
本文的出发点不同于以前的方法(例如修改某几个像素点或者在原图上添加扰动),本文的对抗样本是通过修改输入图像中某些特殊的特征(例如戴上眼镜),从而产生语义自然的图片的同时,还能愚弄分类器。

  • 类型:white-box攻击,需要知道模型的梯度信息
  • DataSet: CelebA数据集,攻击的模型是男女分类模型
  • Method:Fader Networks和AttGAN(基于GAN的semantic Attack,该方法使用的是nonlinear变换方法)
[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)_第1张图片
  • Obstacle:一个关键的障碍是,与语义属性相关的参数通常很难解耦。

Contribution:

  • 提出一种新的基于优化的框架,利用parametric generative transformations来生成有效的语义对抗样本
  • 使用muti-attribute模型的变体(Fader Network和Attribute GAN)来生成人脸对抗样本来攻击男女二分类模型
  • 我们对我们的方法进行了实证分析,结果表明,增加攻击空间的维数会导致更有效的攻击。此外,我们研究了一系列nonlinear的攻击,并证明了较高的nonlinear程度会导致较弱的攻击。
  • 对目标模型在对抗样本的抵御能力上进行上界分析

Parametric Transformation Models( G G G):
G G G训练的目标是分解语义特征的同时还能重建原始样本,它需要满足两个性质:

  • G能够重建图像中的不变数据
  • G应该能够独立地扰乱语义属性,同时尽可能少地更改不变的数据。

作者提出的semantic attack可以应用于任何支持梯度计算的Parametric Transformation Models,不过最后作者选择了最近提出的两个生成模型:Fader networksAttGAN

Adversarial Parameter Optimiziation:
生成语义对抗样本的问题本质上可以看作是找到分类器易受对抗性影响的属性集(set of attributes)。该优化问题可以分解为2个子问题:

  • first step: 优化目标网络的adversarial loss来寻找对抗扰动的direction
  • seconde step: 将adversarial vector投影到solution-sapce(解空间)

作者修改了CW untargeted adversarial loss来包含作者想要的语义约束

[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)_第2张图片

其算法流程为

[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)_第3张图片

Adbersarial Fader Network:
Fader网络是一种encoder-decoder体系结构,用于修改具有连续参数化属性的图像。该网络在分解图像语义信息的同时还能学习encoded latent representation中的不变性。在实际操作过程中,作者采用3种方式来生成semantic adversarial examples:

  • A single attribute Fader Network: 该方法只修改所有图片中的某个特定的属性,针对本文的人脸,修改的属性可能会是添加眼镜、头发颜色等等。下图是模型的示意图:
[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)_第4张图片
  • Multi-Attribute Attack: 与single类似,只是在预训练的时候模型可以接触到更多可修改的属性,不过该方法有局限性,这是因为Fader Network需要去学习分离的属性,而在实践中,语义属性不能完全解耦。
  • Cascaded Attribute Attack:具体细节论文没有提及(We propose a novel method to simulate multi-attribute attacks by stage-wise concatenation
    pre-trained single attribute Fader networks.),但是其缺点就是重建质量比较低。
[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)_第5张图片

Adversarial AttGAN:
与Fader Network类似,不同之处在于AttGAN在训练过程中同时考虑了原始标签和翻转标签,将语义属性从数据的underlying invariances中分离出来。在实验过程中,AttGAN提供了更加稳定的重建效果。其结构如下图:

[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)_第6张图片

AttGAN的生成效果:
相比于Fader Network,AttGAN生成的图片更加清晰

domain:
对于下面通过severe artifacts(不知道如何理解这个名词)(可能是比较粗糙的意思吧)生成的图片,训练好的模型依然能够正确分类,这就说明神经网络对semantic domain上的改变有一定的鲁棒性。而在pixel domain则没那么鲁棒(因为改变几个像素点就能让模型误分类了)

[论文阅读笔记]SEMANTIC ADVERSARIAL ATTACKS: PARAMETRIC TRANSFORMATIONS THAT FOOL DEEP CLASSIFIERS(ICCV)_第7张图片

如果觉得我有地方讲的不好的或者有错误的欢迎给我留言,谢谢大家阅读(点个赞我可是会很开心的哦)~

你可能感兴趣的:(深度学习/机器学习)