DeepFool: a simple and accurate method to fool deep neural networks

DeepFool: a simple and accurate method to fool deep neural networks----《DeepFool:一种简单而准确的欺骗深度神经网络的方法》

摘要

  最先进的深度神经网络已经在许多图像分类任务上取得了令人印象深刻的结果。然而,这些相同的架构已被证明对于图像的小而良好的扰动是不稳定的。尽管这种现象很重要,但尚未提出有效的方法来准确计算最先进的深度分类器对大规模数据集上的此类扰动的鲁棒性。在本文中,我们填补了这一空白,并提出了 DeepFool 算法来有效计算欺骗深度网络的扰动,从而可靠地量化这些分类器的鲁棒性。大量的实验结果表明,我们的方法在计算对抗性扰动和使分类器更加鲁棒的任务中优于最新的方法。

引言

  深度神经网络是强大的学习模型,可在生物信息学 [1, 16]、语音 [12, 6] 和计算机视觉 [10, 8] 等许多研究领域实现最先进的模式识别性能。尽管深度网络在分类任务中表现出了非常好的性能,但最近被证明深度网络对数据的对抗性扰动特别不稳定[18]。事实上,数据样本的非常小的且通常难以察觉的扰动足以欺骗最先进的分类器并导致错误的分类。 (例如图 1)。对对抗性扰动的研究有助于我们了解分类器使用哪些特征。这些例子的存在似乎与学习算法的泛化能力相矛盾。虽然深度网络在图像分类任务中实现了最先进的性能,但它们对于小的对抗性扰动根本不稳健,并且往往会对视觉上看起来与干净样本相似的最小扰动数据进行错误分类。尽管对抗性攻击是特定于分类器的,但对抗性扰动似乎可以在不同模型中推广[18]。从安全角度来看,这实际上可能成为一个真正的问题。
DeepFool: a simple and accurate method to fool deep neural networks_第1张图片DeepFool: a simple and accurate method to fool deep neural networks_第2张图片
  因此,需要一种准确的方法来查找对抗性扰动,以研究和比较不同分类器对对抗性扰动的鲁棒性。这可能是更好地理解当前架构的局限性和设计提高鲁棒性方法的关键。尽管最先进的分类器对对抗不稳定性的脆弱性很重要,但尚未提出有根据的方法来计算对抗性扰动,我们在本文中填补了这一空白。我们的主要贡献如下:

  • 1、我们提出了一种简单而准确的方法来计算和比较不同分类器对对抗性扰动的鲁棒性。
  • 2、我们进行了广泛的实验比较,结果表明:1)我们的方法比现有方法更可靠、更高效地计算对抗性扰动;2)用对抗性示例增强训练数据显着提高了对抗性扰动的鲁棒性。
  • 3、我们表明,使用不精确的方法来计算对抗性扰动可能会导致关于鲁棒性的不同的、有时甚至是误导性的结论。因此,我们的方法可以更好地理解这种有趣的现象及其影响因素。

  我们现在回顾一些相关工作。对抗性不稳定现象在[18]中首次被引入和研究。作者通过解决惩罚优化问题来估计对抗性示例,并进行了分析,表明神经网络的高复杂性可能是解释对抗性示例存在的原因。不幸的是,[18]中采用的优化方法非常耗时,因此无法扩展到大型数据集。在[14]中,作者根据在Pascal3D+注释上所做的实验表明,卷积网络对某些转换不是不变的。最近,Tsai等人[19]提供了一种软件,可以在特定的类别中对给定的图像进行错误分类,而不必找到最小的扰动。Nguyen等人[13]生成合成的不可识别图像,并对其进行了高可信度的分类。[3]的作者还研究了一个相关的问题,即寻找愚弄图像分类器的最小几何变换,并提供了分类器对几何变换的鲁棒性的定量度量。与我们的工作更接近的是,[4]的作者引入了“快速梯度符号”方法,该方法非常有效地计算给定分类器的对抗扰动。尽管其效率很高,但该方法仅提供最佳扰动向量的粗略近似。事实上,它执行独特的梯度步骤,这通常会导致次优解决方案。然后,为了针对对抗性扰动构建更鲁棒的分类器,[5] 在训练过程中引入了平滑度惩罚,以提高分类器的鲁棒性。值得注意的是,应用[18]中的方法是为了产生对抗性扰动。最后我们应该提到,对抗性不稳定现象也导致了[2]中的理论工作,该工作研究了一些分类器族的对抗性扰动问题,并提供了这些分类器鲁棒性的上限。然而,需要更深入地了解更复杂的分类器的对抗性不稳定现象;这项工作中提出的方法可以被视为有效、准确地生成对抗性扰动的基线,以便更好地理解这种现象。
DeepFool: a simple and accurate method to fool deep neural networks_第3张图片
DeepFool: a simple and accurate method to fool deep neural networks_第4张图片
DeepFool: a simple and accurate method to fool deep neural networks_第5张图片

多类分类器:

DeepFool: a simple and accurate method to fool deep neural networks_第6张图片

实验结果

不同分类器在不同数据集上的对抗鲁棒性。
DeepFool: a simple and accurate method to fool deep neural networks_第7张图片
FGSM和DeepFool在90%误分类的情况下的鲁棒性比较。
DeepFool: a simple and accurate method to fool deep neural networks_第8张图片
经过微调的网络的精度。
DeepFool: a simple and accurate method to fool deep neural networks_第9张图片
实验结论:

  • 1、Deepfool能用最小扰动误导模型(希望在达成攻击目标的同时让扰动尽可能的小);
  • 2、对抗训练能增强模型性能,过度扰动的对抗训练会降低模型性能(FGSM输出过度扰动的图像,从而导致在测试数据中不太可能出现的图像。因此,由于它充当了不代表原始数据分布的正则化程序,因此降低了该方法的性能)。

结论

  在这项工作中,我们提出了一种算法 DeepFool 来计算欺骗最先进分类器的对抗性示例。它基于分类器的迭代线性化,以生成足以改变分类标签的最小扰动。我们提供了关于三个数据集和八个分类器的广泛实验证据,表明所提出的方法相对于计算对抗性扰动的最先进方法的优越性,以及所提出方法的效率。由于其对对抗性扰动的准确估计,所提出的 DeepFool 算法提供了一种有效且准确的方法来评估分类器的鲁棒性,并通过适当的微调来增强其性能。因此,所提出的方法可以用作准确估计最小扰动向量并构建更鲁棒的分类器的可靠工具。

你可能感兴趣的:(对抗性攻击,深度学习,神经网络)