Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

1. 介绍

  • 作为基于迭代优化攻击的基准测试已经成为评估防御的标准实践,新的防御出现了,似乎对这些强大的基于优化的攻击具有强大的抵抗力。

Kurakin, A., Goodfellow, I., and Bengio, S. Adversar- ial examples in the physical world. arXiv preprint arXiv:1607.02533, 2016a.
Madry, A., Makelov, A., Schmidt, L., Tsipras, D., and Vladu, A. Towards deep learning models resistant to ad- versarial attacks. International Conference on Learning Representations, 2018. URL https://openreview. net/forum?id=rJzIBfZAb. accepted as poster.
Carlini, N. and Wagner, D. Towards evaluating the robust- ness of neural networks. In IEEE Symposium on Security & Privacy, 2017c.

  • 我们确定了一个一般性的解释为什么许多防御能提高模型对迭代优化攻击的鲁棒性:即混淆梯度,这个术语被我们定义为梯度掩蔽的特殊情况。

Papernot, N., McDaniel, P., Goodfellow, I., Jha, S., Ce- lik, Z. B., and Swami, A. Practical black-box attacks against machine learning. In Proceedings of the 2017 ACM on Asia Conference on Computer and Communica- tions Security, ASIA CCS ’17, pp. 506–519, New York, NY, USA, 2017. ACM. ISBN 978-1-4503-4944-4. doi: 10.1145/3052973.3053009. URL http://doi.acm. org/10.1145/3052973.3053009.

  • 我们提出了三种混淆梯度:
  1. shattered gradients are: 破碎梯度是不存在的或不正确的梯度,要么是有意地通过不可微操作造成的,要么是无意地通过数值不稳定造成的.
  2. stochastic gradients: 随机梯度依赖于测试时间的随机性.
  3. vanishing/exploding gradients: 在非常深的计算中,消失/爆炸梯度会导致不可用的梯度。
  • 作者提供了一个新的技术去克服由这三种情况造成的混淆梯度。我们使用一种新的攻击技术来解决梯度破碎问题,我们称之为后向传递可微近似,其中我们通过正常计算前向传递来近似导数,并使用函数的可微近似来计算后向传递。
  • 通过对变换的期望计算随机化防御的梯度

Athalye, A., Engstrom, L., Ilyas, A., and Kwok, K. Syn- thesizing robust adversarial examples. arXiv preprint arXiv:1707.07397, 2017.

  • 我们通过重新参数化求解消失/爆炸梯度,并在梯度不爆炸/消失的空间上进行优化。

  • 为了调查模糊梯度的普遍程度并了解这些攻击技术的适用性,我们使用ICLR 2018非认证防御作为案例研究,该防御声称具有白盒鲁棒性。我们发现模糊梯度是一种常见的现象,9种防御中有7种依赖于这种现象。应用新开发的攻击技术,在每篇论文的原始威胁模型下,我们克服了模糊梯度,完全绕过了其中的6个梯度,部分绕过了其中的1个梯度。

  • 此外,我们希望为研究人员提供一个共同的知识基线、攻击技术描述和常见的评估陷阱,以便将来的防御可以避免受到这些相同攻击方法的攻击。

2. 准备

符号

  • :表示神经网络。
  • :表示分类器把图片分为标签的概率。
  • :表示第层的神经网络。
  • :表示第到层网络的合成。
  • :表示网络的分类结果。
  • :表示真实标签。

对抗样本

给定图片和分类器,对抗样本满足两个性质:根据某个量化标准,其距离必须足够小,且。

数据集和模型

  • 我们在他们声称健壮性的相同数据集上评估这些防御

  • 如果防御方在MNIST和任何其他数据集上争论安全性,我们只评估较大数据集上的防御。

  • 在MNIST和CIFAR-10上,我们评估了整个测试集的防御能力,并生成了非目标的对抗示例。

  • 在ImageNet上,我们对测试集中随机选取的1000多幅图像进行评估,构建随机选取目标类的目标对抗性测试组,并在模型精度的基础上报告攻击成功率。

  • 生成有针对性的对抗性示例是一个严格来说比较困难的问题,我们认为这是评估攻击的一个更有意义的指标。相反,对于防御者来说,更困难的任务是论证对非目标攻击的鲁棒性。

  • 对于每一个数据集,我们使用标准的模型。对于MINST模型我们使用5层的卷积神经网络,准确率99.3%。对于CIFAR-10,我们训练了一个ResNet模型,准确率95%。对于ImageNet数据集,我们使用Inception V3网络(top-1有78.0%正确率,top-5有93.9%的准确率。)

威胁模型

  • 在本文中,我们考虑了为白盒设置而设计的防御,在白盒设置中,对手可以完全访问神经网络分类器(体系结构和权重)和防御,但不考虑测试时的随机性(只考虑分布)

攻击方法

  • 我们用基于优化迭代的方法构建对抗样本。对于给定的样本,这些攻击尝试着去寻找一个使得,要么最小化,要么最大化分类器的Loss函数。

  • 为了生成无穷范数有界的对抗样本,我们使用了限制在一个指定的负无穷球上的投影梯度下降(PGD)。对于L2范数,我们使用Carlini & Wagner (2017c)的拉格朗日松弛。

  • 我们使用100到10000次梯度下降迭代,以获得收敛性。优化器的具体选择远没有选择使用基于迭代优化的方法(Madry)重要。

3. 混淆梯度

  • 如果一种防御方法“没有有用的梯度”来生成对抗性测试组(Papernot),则会导致梯度掩蔽.

Papernot, N., McDaniel, P., Goodfellow, I., Jha, S., Ce- lik, Z. B., and Swami, A. Practical black-box attacks against machine learning. In Proceedings of the 2017 ACM on Asia Conference on Computer and Communica- tions Security, ASIA CCS ’17, pp. 506–519, New York, NY, USA, 2017. ACM. ISBN 978-1-4503-4944-4. doi: 10.1145/3052973.3053009. URL http://doi.acm. org/10.1145/3052973.3053009.

  • 梯度掩蔽被认为是一个不完整的防御对抗性的例子

Tram`er, F., Kurakin, A., Papernot, N., Goodfellow, I., Boneh, D., and McDaniel, P. Ensemble adversarial train- ing: Attacks and defenses. International Conference on Learning Representations, 2018. URL https:// openreview.net/forum?id=rkZvSe-RZ. ac- cepted as poster.

  • 尽管如此,我们观察到ICLR 2018防御系统中有7个依赖于这种效果.

Shattered Gradients

  • 当防御不可微、引入数值不稳定或以其他方式导致梯度不存在或不正确时,就会产生破碎梯度。
  • 导致梯度破碎的防御可以通过使用可微操作无意中做到这一点,但是在全局情况下,跟随梯度并不会最大化分类损失

Stochasitc Gradients

  • 随机梯度是由随机防御引起的,网络本身是随机的,或者在输入到分类器之前对输入进行随机变换,使得梯度成为随机的。这使得使用单样本随机性的方法直接估计真实梯度。

Exploding & Vanishing Gradients

  • 爆炸梯度和消失梯度通常是由神经网络评估的多个迭代组成的防御引起的,将一个计算的输出作为下一个计算的输入。这种类型的计算,当展开时,可以看作是一种非常深入的神经网络评估,它可以导致消失/爆炸梯度.

3.1 识别混淆梯度和掩码梯度

  • 一些防御措施故意破坏梯度下降,造成混淆梯度。然而,其他的防御无意中破坏了梯度下降,但梯度下降被破坏的原因是神经网络设计的直接结果。我们将在下面讨论导致这种情况发生的防御行为的特征。这些行为可能不能完美地描述所有屏蔽梯度的情况。

  • 单步攻击的效果要比迭代攻击的效果好。在白盒设置中应用的基于迭代优化的攻击比单步攻击更强,并且应该具有更高的性能。如果单步方法的性能优于迭代方法,那么迭代攻击很可能陷入局部极小值的优化搜索中。

  • 黑盒攻击要比白盒攻击要好。黑盒威胁模型是白盒威胁模型的一个严格子集,因此在白盒环境下的攻击应该表现得更好;如果一个防御是模糊梯度,那么黑盒攻击(不使用梯度)通常比白盒攻击(Papernot)更好。

  • 无界限制的攻击不能达到100%的成功。如果一个攻击没有达到100%的成功,并且有足够大的失真范围,这表明该攻击对防御的性能不是最佳的,并且该攻击应该得到改进。

  • 随机抽样发现对抗样本

  • 增加失真范围并不会增加成功。

4. 攻击技术

  • 通过基于优化的方法生成对抗性实例需要通过反向传播获得有用的梯度。因此许多防御方法要么有意要么无意的通过梯度破坏、随机梯度或者是梯度消失和爆炸的方法造成梯度混淆,从而使梯度下降失败。我们讨论了一些技术,我们开发的克服混淆梯度。

4.1 向后传播可微估计

  • 非故意地(如数值不稳定)或有意地(如使用不可微操作)造成的破碎梯度,会导致不存在或不正确的梯度。
  • 对于梯度不可用的攻击防御,我们引入了一种称为向后传递可微逼近(BPDA)的技术。

4.1.1 一个特殊的例子:The Straight-Through Estimator

  • 许多不可微的防御能被描述成如下:给定一个预训练好的模型,构建一个预处理好的函数。另表示受防御的分类器。其中满足(也就是说能够移除掉对抗样本上的扰动)

  • 因为具有特征。我们可以把它的导数近似为恒等函数的导数:。因此我们就能估计在上的导数值:

4.1.2 广义的攻击:BPDA

  • 当时,上述攻击对一类可表示为的简单网络是有效的。但不具一般性。

4.2 攻击随机化分类器

  • 对于对输入进行随机转换的防御,我们使用期望对转换(EOT) (Athalye et al., 2017)来正确计算对输入的期望转换的梯度

Athalye, A., Engstrom, L., Ilyas, A., and Kwok, K. Syn- thesizing robust adversarial examples. arXiv preprint arXiv:1707.07397, 2017.

4.3 重新参数化

  • 我们用重新参数化的方法来求解消失/爆炸梯度

5. 案例研究:ICLR 2018 防御

  • 作者在ICLR 2018上挑了几篇声称对白盒攻击有比较好防御效果的论文。他们发现9篇防御的论文中就有7篇是依赖于混淆梯度这个现象。作者提出他们的攻击方法能完全攻破其中的六篇防御方法以及部分攻破一篇防御方法。

Raghunathan, A., Steinhardt, J., and Liang, P. Certified de- fenses against adversarial examples. International Confer- ence on Learning Representations, 2018. URL https: //openreview.net/forum?id=Bys4ob-Rb.

Sinha, A., Namkoong, H., and Duchi, J. Certifiable distri- butional robustness with principled adversarial training. International Conference on Learning Representations, 2018. URL https://openreview.net/forum? id=Hk6kPgZA-.

Tram`er, F., Kurakin, A., Papernot, N., Goodfellow, I., Boneh, D., and McDaniel, P. Ensemble adversarial train- ing: Attacks and defenses. International Conference on Learning Representations, 2018. URL https:// openreview.net/forum?id=rkZvSe-RZ. ac- cepted as poster.

Ma, X., Li, B., Wang, Y., Erfani, S. M., Wijewickrema, S., Schoenebeck, G., Houle, M. E., Song, D., and Bailey, J. Characterizing adversarial subspaces using local intrinsic dimensionality. International Conference on Learning Representations, 2018. URL https://openreview. net/forum?id=B1gJ1L2aW. accepted as oral pre- sentation.

你可能感兴趣的:(Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples)