《Ensemble adversarial black-box attacks against deep learning systems》笔记

本文目录

  • 摘要
  • 基于集成的黑盒攻击方法
    • SCES
    • SPES
    • 分析
    • 总结

摘要

本文提出了两种基于集成的黑盒攻击策略,分别是selective cascade ensemble strategy (SCES,不知道怎么翻起来信达雅) 和 stack parallel ensemble strategy (SPES,不知道怎么翻起来信达雅)。

基于集成的黑盒攻击方法

本文提出的两种方法都是基于集成的,SCES方法可以理解为串联方法,而SPES可以理解为并串联方法。为什么要采用集成的攻击方法呢?目前的黑盒对抗攻击方法主要还是单一的,即利用单一的模型生成对抗样本,考虑到目前攻击及防御两个领域都在发展,目前已有的一些防御方法比如防御蒸馏、集成对抗训练等方法,都可以一定程度上防御对抗攻击。当然对抗攻击目前是无法被完全防御的,为了实现更强劲的攻击方式,本文提出了两种基于集成的黑盒攻击方法。如果一个对抗样本能够成功攻击一个模型,那么其攻击实现同一功能的其他模型仍然可能有效,集成意味着复杂性,通过更复杂的方法生成的对抗样本直觉上会更加难以抵御。

SCES

《Ensemble adversarial black-box attacks against deep learning systems》笔记_第1张图片 如图所示,在初始化阶段,需要选出k个替代模型,这些模型用来串联生成对抗样本。由于替代模型是我们自己选择来替代需要攻击的模型,所以这些模型对我们而言是白盒的,可以采用包括FGSM在内的多种梯度计算方法来进行白盒对抗攻击生成对抗样本。每个替代模型生成的对抗样本 x i ∗ x_i^* xi通过计算其输入k个替代模型后得到的错误率error rate,根据最小错误率来决定下一个要使用的 M o d e l i Model_i Modeli
之所以采用串联的替代模型来迭代生成对抗样本,是为了提升最终生成的对抗样本的复杂度,但其还是受对抗原则的掣肘,即:扰动应尽量不为人类所察觉。

SPES

《Ensemble adversarial black-box attacks against deep learning systems》笔记_第2张图片
如图,SPES方法仍然需要训练 k k k个异构的替代模型,同SCES,这些模型也是白盒的,因此可以采用基于梯度的计算方式来产生对抗样本。首先,SPES方法通过一个原始的合法输入 x x x,利用某一种白盒的对抗样本生成方法,通过 k k k个替代模型生成 k k k个对抗样本 x i j ∗ x_{ij}^* xij,其中 i i i表示level i i i j j j表示level i i i中的第 j j j个模型生成的对抗样本。再对其进行简单的取均操作,例如:
x 1 ∗ = 1 k ∑ q = 1 k x 1 q ∗ x^*_1=\frac{1}{k}\sum_{q=1}^kx_{1q}^* x1=k1q=1kx1q,其中 x 1 ∗ x^*_1 x1作为下一level的输入重复。
在SPES方法的最后一个步骤,随机选择一模型产生最终的对抗样本 x ∗ x^* x

分析

两种方法在原理上非常类似,都是通过多个替代模型产生多个对抗样本,以集成的方式增加最终对抗样本的复杂度,使其能成功攻击目标模型。
《Ensemble adversarial black-box attacks against deep learning systems》笔记_第3张图片 如图所示,之前提出的基于单个替代模型生成对抗样本的方法有其局限性,譬如很难确保替代模型和目标模型的决策边界非常接近。如果两个模型的决策边界比较远,那么就有可能生成上图a的靠近蓝线的小蓝点,它在替代模型上是成功的对抗样本,但其在目标模型的攻击是无效的。如果采用多个替代模型,利用集成的方式去产生对抗样本,则可以在数量上取胜,有更高的可能性生成真正可以攻击成功的样本。

总结

两个方法攻击效果实验看来都不错,算法的成本也挺高的。对图像的攻击技术到现在已经有了很多,本方法其实还是典型的”寻找特征、添加扰动、生成样本“老路,只是组织方式不同,感觉还是不”自然“。

你可能感兴趣的:(对抗攻击,深度学习)