Benchmarking Adversarial Robustness on Image Classification
深度神经网络容易受到对抗样本的攻击,这成为深度学习发展中最重要的研究问题之一。 尽管近年来已经做出了许多努力,但是对对手的攻击和防御算法进行正确而完整的评估具有重要意义。 在本文中,我们建立了一个全面,严格,一致的基准来评估图像分类任务的对抗鲁棒性。 在简要回顾了许多代表性的攻击和防御方法之后,我们以两条鲁棒性曲线作为公正的评估标准进行了大规模的实验,以充分了解这些方法的性能。 根据评估结果,我们得出了一些重要的发现,可以为未来的研究提供启发,包括:1)模型之间的相对鲁棒性可能会在不同的攻击配置之间发生变化,因此鼓励采用鲁棒性曲线来评估对抗性鲁棒性; 2)作为最有效的防御技术之一,对抗训练可以推广到不同的威胁模型中; 3)基于随机的防御比基于查询的黑盒攻击更鲁棒。
深度学习(DL)模型容易受到对抗样本的攻击,这些样本是恶意生成的以引起错误的预测。 由于DL模型已集成到各种对安全敏感的应用程序(例如,自动驾驶,医疗保健和金融)中,因此对对抗鲁棒性问题的研究已引起越来越多的关注,提出了许多对抗性攻击和防御的方法。 因此,至关重要的是对这些方法进行正确而严格的评估,以了解它们的优缺点,比较其性能并为建立新方法提供启发。
关于对抗鲁棒性的研究面临着攻击与防御(即防御)之间的“军备竞赛”,为防止现有攻击而提出的方法很快就被新的攻击所规避,反之亦然。例如,提出了防御性蒸馏来提高对抗的鲁棒性,但后来证明对强力攻击无效。 引入了许多方法来通过造成混淆的梯度来构建鲁棒的模型,而这些方法可以被自适应方法所挫败。结果,要了解它们的影响,确定实际过程并推进该领域具有挑战性。
而且,当前的攻击和防御常常不完整地评估。 首先,大多数防御只能在有限的威胁模型下针对一小批攻击进行测试,而许多攻击只能在少数模型或防御下进行评估。其次,鲁棒性评估指标太简单,无法显示这些方法的性能。 对于给定的扰动预算,针对攻击的防御的准确性和对抗性扰动的最小距离被用作主要评估指标,这通常不足以完全表征攻击和防御的行为。 因此,不完整的评估无法全面了解这些方法的优势和局限性。
在本文中,我们建立了一个全面,严格,一致的基准来评估对抗的鲁棒性,可以提供对不同情况下现有方法的效果的详细理解,以期为将来的研究提供便利。 特别地,我们将重点放在 ℓ p ℓ_p ℓp规范威胁模型下图像分类器的鲁棒性上,该模型已经投入了大量工作。 我们结合了许多典型的和最新的攻击和防御方法来进行鲁棒性评估,包括15种攻击方法和16种防御模型CIFAR-10为8种,ImageNet为8种。 为了充分展示这些方法的性能,我们采用两条互补的稳健性曲线作为主要评估指标来介绍结果。 然后,我们在完整的威胁模型下,对攻防方法的交叉评估进行了大规模的实验,包括:1)非针对性和针对性攻击; 2) ℓ ∞ ℓ_∞ ℓ∞和 ℓ 2 ℓ_2 ℓ2攻击; 3)白盒攻击,基于迁移的攻击,基于分数的攻击和基于决策的攻击。
通过定量分析结果,我们有一些重要发现。 首先,在变化的扰动预算或攻击迭代条件下,针对攻击的防御之间的相对鲁棒性可能会有所不同。 因此,很难断定使用特定的配置,防御比其他针对攻击的防御更为强大。 但是,这在以前的作品中很常见。 其次,尽管已经提出了各种防御技术,但是最强大的防御仍然是对抗训练的模型。 它们的鲁棒性还可以推广到其他威胁模型,在这些模型下,它们没有经过训练就具有鲁棒性。 第三,基于随机化的防御通常比基于查询的黑盒攻击更鲁棒。在5.3节中可以找到更多的讨论细节。
由于现有的平台(例如CleverHans和Foolbox)无法完全支持我们的评估,因此,我们开发了一个名为RealSafe的新的对抗性鲁棒性平台来进行所有评估实验(请参阅附录A)。 我们希望我们的平台能够不断整合和评估更多方法,并为将来的工作提供帮助。
精确定义威胁模型是执行对抗性鲁棒性评估的基础。 根据,威胁模型会指定攻击者的针对性,能力和知识,在此基础上进行攻击并建立强大的防御能力。 我们首先定义符号,然后说明威胁模型的三个方面。分类器可以表示为 C ( x ) : X → Y C(x):\mathcal {X} \rightarrow \mathcal {Y} C(x):X→Y,其中 x ∈ X ⊂ R d \boldsymbol{x} \in \mathcal{X} \subset \mathbb{R}^{d} x∈X⊂Rd是输入,并且 Y = { 1 , 2 , … , L } \mathcal {Y}=\{1,2,…,L\} Y={1,2,…,L},其中 L L L是类别数。 令 y y y表示 x x x的真实标签,而 x a d v x^{adv} xadv表示 x x x的对抗样本。
攻击者可以具有生成对抗样本的不同目标。 本文中我们研究了无针对性和有针对性的对抗样本。 一个无针对性的对抗样本旨在引起分类器错误分类为 C ( x a d v ) ≠ y C\left(\boldsymbol{x}^{a d v}\right) \neq y C(xadv)=y。 有针对性的对抗样本被精心设计为被分类器误分类为对手所需的目标类别,因为 C ( x a d v ) = y ∗ C(x^{adv})= y^∗ C(xadv)=y∗,其中 y ∗ y^∗ y∗是目标类别。
由于通常假定对抗样本与相应的原始样本无法用人眼区分,因此对手只能对输入进行少量更改。 在本文中,我们研究了定义良好且使用广泛的 ℓ p ℓ_p ℓp规范化威胁模型,尽管也存在其他威胁模型。 在 ℓ p ℓ_p ℓp威胁模型下,允许对手将由 ℓ p ℓ_p ℓp规范测得的小扰动添加到原始输入中。 具体来说,我们考虑 ℓ ∞ ℓ_∞ ℓ∞和 ℓ 2 ℓ_2 ℓ2范数。
为了实现对手的目标,可以采用两种策略来制作具有较小扰动的对抗样本。 第一种方法试图制作一个满足 ∥ x a d v − x ∥ p ≤ ϵ \left\|\boldsymbol{x}^{a d v}-\boldsymbol{x}\right\|_{p} \leq \epsilon ∥∥xadv−x∥∥p≤ϵ的对抗性示例 x a d v {x} ^ {a d v} xadv,其中 ϵ \epsilon ϵ是扰动预算,从而误导模型。 这可以通过解决一个约束优化问题来实现。 例如,对手可以通过将受限区域中的损失函数J(例如,交叉熵损失)最大化为非目标对抗样本
x a d v = arg max x ′ : ∥ x ′ − x ∥ p ≤ ϵ J ( x ′ , y ) (1) \boldsymbol{x}^{a d v}=\underset{\boldsymbol{x}^{\prime}:\left\|\boldsymbol{x}^{\prime}-\boldsymbol{x}\right\|_{p} \leq \epsilon}{\arg \max } \mathcal{J}\left(\boldsymbol{x}^{\prime}, y\right)\tag{1} xadv=x′:∥x′−x∥p≤ϵargmaxJ(x′,y)(1)
我们称其为扰动受限的对抗样本。 第二种策略是通过找到最小扰动生成对抗样本
x a d v = arg min x ′ : x ′ is adversarial ∥ x ′ − x ∥ p (2) \boldsymbol{x}^{a d v}=\underset{\boldsymbol{x}^{\prime}: \boldsymbol{x}^{\prime} \text { is adversarial }}{\arg \min }\left\|\boldsymbol{x}^{\prime}-\boldsymbol{x}\right\|_{p}\tag{2} xadv=x′:x′ is adversarial argmin∥x′−x∥p(2)
我们称其为具有优化扰动的对抗样本。 但是,求解方程(1)和(2)通常很棘手,因此,提出了各种攻击方法以获得近似解决方案。
攻击者可以具有不同的目标模型知识水平,从白盒访问模型体系结构和参数,到黑盒访问训练数据或模型预测。 基于模型的不同知识水平,我们考虑了四种攻击情形,包括白盒攻击,基于迁移的攻击,基于分数的攻击和基于决策的黑盒攻击。
白盒攻击依赖于目标模型的详细信息,包括体系结构,参数和损失对输入的梯度。 对于防御,攻击者可以通过考虑特定的防御机制来设计自适应攻击。 基于迁移的黑盒攻击是基于攻击者的可迁移性,首先假设了训练数据的可用性。 它用于训练替代模型,从中生成对抗性示例。 基于分数的黑盒攻击只能通过查询目标模型来获取输出概率。 基于决策的黑盒攻击仅依赖于查询的预测类。 基于分数和基于决策的攻击也受到对目标模型的有限查询数量的限制。
在这一部分我们总结了几种典型的攻击和防御方法。
大多数白盒攻击都基于输入梯度来制作对抗样本。 对于求解方程 (1),快速梯度符号方法(FGSM)线性化输入空间中的损失函数并一步更新一个对抗样本。 基本迭代方法(BIM)通过迭代地采取多个小的梯度步来扩展FGSM。 类似于BIM,投影梯度下降法(PGD)充当一个具有随机起点的通用一阶攻击者。 对于求解方程 (2),有人提出使用DeepFool 来产生一个具有最小扰动的对抗样本。 Carlini&Wagner的方法(C&W)采用拉格朗日形式和Adam 进行优化。 但是,某些防御可能会通过造成混淆的梯度来抵御这些基于梯度的攻击。 为了规避它们,当真实梯度不可用或无用时,攻击者可以使用BPDA提供一个近似梯度,而当梯度是随机的时,则可以使用EOT。
基于转移的攻击会针对替代模型制作对抗样本,这些样本很可能会基于可迁移性来欺骗黑盒子模型。 已经提出了几种方法来改善可迁移性。 动量迭代方法(MIM)将动量项集成到BIM中,以稳定攻击迭代时的更新方向。 多样化输入法(DIM)将随机调整大小和填充后的输入的梯度应用于生成对抗样本。 平移不变方法(TI)进一步提高了防御模型的可迁移性。
在此设置下,尽管无法使用白盒访问模型梯度,但可以通过无梯度方法通过查询来估计它。ZOO通过有限差分估计每个坐标的梯度,并基于估计的梯度采用C&W进行攻击。 NES和SPSA可以基于抽取随机样本并获取相应的损耗值来给出完整的梯度估计。先验指导随机无梯度法(P-RGF)通过基于迁移的先验可以更准确地估计梯度。 N ATTACK 不是估计梯度,而是学习以输入为中心的高斯分布,从中抽取的样本可能是具有对抗性的。
由于模型仅提供离散的硬标签预测,因此此设置更具挑战性。 边界攻击是这种情况下基于决策边界上随机游走的第一种方法。 基于优化的方法将这个问题公式化为一个连续的优化问题,并估计了梯度以解决该问题。 进一步提出了基于进化策略的进化攻击方法,以提高查询效率。
由于存在对抗样本的威胁,因此已经进行了广泛的研究,以构建强大的模型来防御对抗性攻击。 在本文中,我们将防御技术大致分为五类,包括鲁棒训练,输入变换,随机化,模型集成和认证防御。 请注意,这些防御类别不是排他性的,即一种防御可以属于许多类别。 下面我们介绍每个类别。
鲁棒训练的基本原理是使分类器对内部的小噪声具有鲁棒性。 对抗训练是其中的一项工作,它通过对抗样本来扩充训练数据。 另一项工作是通过其他损失或正则化来训练鲁棒模型,包括网络Lipschitz常数,输入梯度,扰动范数或最大-马哈拉诺比斯中心损失。
许多防御措施在将输入提供给分类器之前对其进行转换,包括JPEG压缩,位深度缩减,总方差最小化,基于自动编码器的去噪以及通过生成模型将对抗样本投影到数据分布上。 但是,这些防御措施可能会导致破碎的梯度或消失/爆炸的梯度,可以通过自适应攻击来规避。
可以使分类器随机化以减轻对抗性的影响。 可以将随机性添加到输入或模型中。 随机性也可以通过贝叶斯神经网络建模。 这些方法部分依赖于随机梯度来防止对抗性攻击,并且可以被对随机梯度期望值更高的攻击所击败。
在实践中,一种有效的防御策略是构建多个单一模型的集合。除了在集合中汇总每个模型的输出外,还提出了一些不同的集合策略。随机自集成将对注入模型的随机噪声的预测取平均,这等于对无数个噪声模型进行集成。 庞等提出在不同模型的预测之间提高多样性,并引入自适应多样性促进正则化器来实现这一目标。
有许多工作用于训练经过认证的防御,可以证明这些防御在某些威胁模型下具有强大的抵抗对抗性干扰的能力。 最近,认证的防御措施可以应用于ImageNet,显示了这种防御措施的可扩展性。
随着提出的对抗性攻击和防御的数量不断增加,对这些方法的正确和严格的评估变得越来越重要,以帮助我们更好地理解这些方法的优势和局限性。 但是,由于评估不正确或不完整,对这些方法的效果仍然缺乏全面的了解。 为了解决这个问题,并进一步提升此领域,我们建立了一个全面,严格且一致的基准,以经验方式评估对抗性的鲁棒性。 我们在基准测试中将15种攻击方法和16种防御模型纳入到两个图像数据集中,以进行鲁棒性评估。 我们还采用了两条互补的鲁棒性曲线作为公正的评估指标。
给定一种攻击方法 A ϵ , p \mathcal{A}_{\epsilon, p} Aϵ,p,它为输入 x x x生成一个对抗样本 x a d v = A ϵ , p ( x ) \boldsymbol{x}^{a d v}=\mathcal{A}_{\epsilon, p}(\boldsymbol{x}) xadv=Aϵ,p(x),其输入扰动预算 ϵ \epsilon ϵ为 ℓ p \ell_{p} ℓp范数,并且在第2部分定义了(防御)分类器 C C C,分类器针对攻击的精度定义为
Acc ( C , A ϵ , p ) = 1 N ∑ i = 1 N 1 ( C ( A ϵ , p ( x i ) ) = y i ) (3) \operatorname{Acc}\left(C, \mathcal{A}_{\epsilon, p}\right)=\frac{1}{N} \sum_{i=1}^{N} \mathbf{1}\left(C\left(\mathcal{A}_{\epsilon, p}\left(\boldsymbol{x}_{i}\right)\right)=y_{i}\right)\tag{3} Acc(C,Aϵ,p)=N1i=1∑N1(C(Aϵ,p(xi))=yi)(3)
其中 { x i , y i } i = 1 N \left\{\boldsymbol{x}_{i}, y_{i}\right\}_{i=1}^{N} {xi,yi}i=1N是测试集, 1 ( ⋅ ) \mathbf{1}(\cdot) 1(⋅)是指示函数。在分类器上,一个无针对性的攻击的攻击成功率的定义为
Asr ( A ϵ , p , C ) = 1 M ∑ i = 1 N 1 ( C ( x i ) = y i ∧ C ( A ϵ , p ( x i ) ) ≠ y i ) (4) \operatorname{Asr}\left(\mathcal{A}_{\epsilon, p}, C\right)=\frac{1}{M} \sum_{i=1}^{N} \mathbf{1}\left(C\left(\boldsymbol{x}_{i}\right)=y_{i} \wedge C\left(\mathcal{A}_{\epsilon, p}\left(\boldsymbol{x}_{i}\right)\right) \neq y_{i}\right)\tag{4} Asr(Aϵ,p,C)=M1i=1∑N1(C(xi)=yi∧C(Aϵ,p(xi))=yi)(4)
其中 M = ∑ i = 1 N 1 ( C ( x i ) = y i ) M=\sum_{i=1}^{N} \mathbf{1}\left(C\left(\boldsymbol{x}_{i}\right)=y_{i}\right) M=∑i=1N1(C(xi)=yi),然而有针对性的攻击成功率的定义为
Asr ( A ϵ , p , C ) = 1 N ∑ i = 1 N 1 ( C ( A ϵ , p ( x i ) ) = y i ∗ ) (5) \operatorname{Asr}\left(\mathcal{A}_{\epsilon, p}, C\right)=\frac{1}{N} \sum_{i=1}^{N} \mathbf{1}\left(C\left(\mathcal{A}_{\epsilon, p}\left(\boldsymbol{x}_{i}\right)\right)=y_{i}^{*}\right)\tag{5} Asr(Aϵ,p,C)=N1i=1∑N1(C(Aϵ,p(xi))=yi∗)(5)
其中 y i ∗ y_{i}^{*} yi∗是对应于 x i x_i xi的目标类。
先前的方法通常报告某些选定的扰动预算 ϵ \epsilon ϵ的逐点准确性或攻击成功率,这可能无法完全反映其属性。 在本文中,我们采用两条互补的鲁棒性曲线来清晰,透彻地显示分类器对攻击的鲁棒性和抵抗力,以及对分类器的攻击的有效性和效率。
第一个是精度(攻击成功率)与扰动预算曲线,这可以全面了解分类器对于攻击的鲁棒性和有效性。要生成这样的曲线,我们需要计算 ϵ \epsilon ϵ的所有值的准确性或攻击成功率。 对于发现最小扰动的攻击,可以通过计算对抗样本的数量(其扰动小于每个 ϵ \epsilon ϵ的 ℓ p \ell_{p} ℓp范数)来有效地做到这一点。 对于利用受扰动限制来制造对抗样本的攻击,我们对 ϵ \epsilon ϵ进行一个二进制搜索以找到其最小值,从而使所生成的对抗样本能够实现攻击者的目标。
第二条曲线是精度(攻击成功率)与攻击强度的关系曲线,其中攻击强度定义为基于不同攻击方法的迭代次数或模型查询次数。 该曲线可以显示攻击的效率,以及分类器对攻击的抵抗力,例如,对于一个防御,其精度下降到零(针对100次迭代的攻击)比其他防御更能抵抗这种攻击,尽管两个模型的最坏情况精度均为零,但由于相同攻击10次迭代就被完全破坏了。
在本文中,我们使用CIFAR-10和ImageNet数据集进行对抗性鲁棒性评估。 我们使用包含10000张CIFAR-10图像的测试集,并从ImageNet验证集中随机选择1000张图像进行评估。对于每个图像,我们除它的真实类别以外的所有其他类别中均匀选择一个目标类别,作有针对性的攻击。
为了公平地评估,我们测试了16种代表性的防御模型,这些模型的源代码和预训练的模型均可公开获得。 这些模型涵盖所有防御类别,并且在每个类别中都包括最新模型。 在CIFAR-10上,我们选择8种模型-自然训练的ResNet-56(Res-56),基于PGD的对抗训练(PGD-AT),DeepDefense ,TRADES ,凸外部 多面体(凸),JPEG压缩,随机自集成(RSE)和自适应多样性促进(ADP)。在ImageNet上,我们还选择8个模型-自然训练的Inception v3(Inc-v3),整体对抗训练(Ens-AT),对抗对数配对(ALP),特征降噪(FD),JPEG压缩,位深度缩小(Bit-Red),随机大小调整和填充(R&P)和RandMix。 我们将自然模型用作基于输入变换(例如JPEG)的防御的骨干分类器。 表1显示了防御的详细信息。 我们选择许多基于随机化或输入变换的已被破坏的弱防御的原因,在于我们想全面展示它们在各种威胁模型下的行为,并且确实为这些防御得出了一些发现。
表1:我们展示了防御模型,这些模型已被纳入基准以进行对抗性鲁棒性评估。 我们还将显示防御的类型,原始预期的威胁模型(即,在原论文中训练防御时要对其进行鲁棒的或评估的威胁模型;“General”表示该防御可以用于任何威胁模型)以及每种方法的干净数据的精度(%)。 精度由我们自己重新计算。 有关其模型架构的更多详细信息,请参见附录B。
我们在基准测试中实施了15种典型且广泛使用的攻击方法,包括5种白盒攻击-FGSM,BIM,MIM,DeepFool和C&W; 4种基于迁移的攻击-FGSM,BIM,MIM和DIM; 4种基于分数的攻击-ZOO,NES,SPSA和N ATTACK,以及2种基于决策的攻击-边界和进化。有关这些攻击的更多详细信息,请参见表2。注意:1)我们不评估PGD,因为PGD和BIM非常相似,并且通常会产生相似的性能; 2)对于基于迁移的攻击,我们通过替代模型上的白盒方法制作对抗样本; 3)对于依赖模糊梯度的防御,我们通过在不可用时用大约一个真实梯度或在随机情况下用期望的梯度替换真实梯度,来自适应地实施白盒攻击,以便白盒攻击可以确定出模型在最坏情况下的鲁棒性。
表2:我们显示了基准测试中为对抗性鲁棒性评估而实施的攻击方法。 我们还显示了攻击者的知识(白盒,基于迁移,基于分数或基于决策),针对性(“ un。”代表无针对性;“ tar。”代表有针对性),能力(受约束或优化的扰动),以及每种攻击方法的距离度量。
所有的攻击和防御均在一个新的对抗鲁棒平台-RealSafe上实现。我们还将基于该平台进行实验。 我们的平台采用了模块化的实现方式,该实现方式很容易扩展,如附录A所述。我们承认,许多工作未包含在我们当前的基准测试中。 我们希望我们的平台能够不断整合和评估更多方法,并为将来的工作提供帮助。
我们将在5.1和5.2中分别介绍CIFAR-10和ImageNet的评估结果。 由于篇幅所限,在本节中,我们主要提供在 ℓ ∞ ℓ_∞ ℓ∞准则下的针对无目标攻击的防御模型的精度与扰动预算和攻击强度的曲线,并在附录C中留下完整的实验结果(包括基于 ℓ ∞ ℓ_∞ ℓ∞准则的针对性攻击, ℓ 2 ℓ_2 ℓ2规范下的无针对性和有针对性的攻击以及攻击成功率曲线)。我们还在5.3节中报告了一些关键发现。
在本节中,我们将展示CIFAR-10上的8种模型包括针对白盒攻击,基于迁移,基于分数和基于决策的攻击的精度。 为了获得精度与扰动预算曲线,我们固定了不同预算的攻击强度(即攻击迭代次数或查询次数)。 为了生成精度与攻击强度的关系曲线,我们使用固定的扰动预算,对于 ℓ ∞ ℓ_∞ ℓ∞攻击, ϵ = 8 / 255 \epsilon=8/255 ϵ=8/255,对于 ℓ 2 ℓ_2 ℓ2攻击, ϵ = 1.0 \epsilon = 1.0 ϵ=1.0,图像为 [ 0 , 1 ] [0,1] [0,1]。 附录B中提供了每种攻击的详细参数。我们使用相同的攻击参数来评估所有防御模型,并在以后的工作中保留攻击参数对鲁棒性的研究。 为了更好地显示本文采用的鲁棒性曲线相比于以前的评估标准的优越性(即,最小对抗性扰动的中值距离和针对给定扰动预算的模型的精确度),我们在表3中根据之前的评估标准显示评估结果。
图1:CIFAR-10上的8个模型在 ℓ ∞ ℓ_∞ ℓ∞范数下针对无目标白盒攻击的精度与扰动预算曲线。
我们在图1中展示了在 ℓ ∞ ℓ_∞ ℓ∞范数下针对无目标的FGSM,BIM,MIM和DeepFool攻击的8个模型的精度与摄动预算曲线,在附录C中保留精度与攻击强度的关系曲线。随着扰动预算的增加,针对迭代攻击,模型的精度降至零。 根据结果,我们观察到在白盒攻击下,经过对抗训练的模型(即PGD-AT,TRADES)比其他模型更鲁棒,因为它们是在最坏情况下的对抗样本中进行训练的。 我们还观察到,在不同的扰动预算或攻击迭代条件下,两种模型之间针对一种攻击的相对鲁棒性可能有所不同(如附录C所示)。例如,当扰动预算较小(例如 ϵ = 0.05 \epsilon = 0.05 ϵ=0.05)时,TRADES的精度要高于PGD-AT的白盒攻击,但是在较大的扰动预算下(例如 ϵ = 0.05 \epsilon = 0.05 ϵ=0.05)则较低。 这一发现表明,在先前的工作中常见的在选择的摄动预算或攻击迭代时防御模型之间的比较不能完全证明模型的性能。 但是,与表3中的逐点评估结果相比,本文采用的鲁棒性曲线可以更好地显示这些方法的整体性能。
表3:在CIFAR-10上,针对先前评估标准给出的 ℓ ∞ ℓ_∞ ℓ∞范数针对无目标攻击的8个模型的逐点结果。 每个条目都显示所有样本之间最小对抗性扰动的中值 ℓ ∞ ℓ_∞ ℓ∞距离(左),以及固定 ϵ = 8 / 255 \epsilon = 8/255 ϵ=8/255(右)时模型的精度。
在图2中我们显示了在 ℓ ∞ ℓ_∞ ℓ∞范数下针对无目标迁移的FGSM,BIM,MIM和DIM攻击的8种模型的精度与扰动预算曲线,在附录C中保留了精度与攻击强度曲线。在本实验中,我们选择TRADES作为替代模型来攻击其他模型,并使用PGD-AT来攻击TRADES,因为这两个模型显示出比其他模型更好的白盒鲁棒性,并且因此,在其他模型上生成的对抗样本很少会迁移到TRADES和PGD-AT。 从结果来看,防御的准确性也随着扰动预算的增加而下降。我们还观察到,最近用于提高可迁移性的攻击(例如MIM,DIM)实际上并不比基准BIM方法表现更好。
图2:CIFAR-10上的8个模型在 ℓ ∞ ℓ_∞ ℓ∞范数下针对无目标基于迁移的攻击的精度与扰动预算曲线。
在图3和图5中,我们显示了在 ℓ ∞ ℓ_∞ ℓ∞范数下的针对基于无目标得分的NES,SPSA和N ATTACK的8个模型的精度与扰动预算以及精度与攻击强度(查询)的曲线。在这些攻击方法中,我们将查询的最大数量设置为20000 。防御的精度也随着扰动预算或查询数量的增加而降低。 从图中可以看出,N ATTACK更有效。 从结果中,我们注意到RSE对基于分数的攻击(尤其是NES和SPSA)具有相当强的抵抗力。 我们认为,RSE提供的预测的随机性使NES和SPSA的估计梯度对攻击无用。
图3:CIFAR-10上的8个模型在 ℓ ∞ ℓ_∞ ℓ∞范数下针对无目标基于分数攻击的精度与扰动预算曲线。
图5:CIFAR-10上的8个模型在 ℓ ∞ ℓ_∞ ℓ∞范数下针对无目标基于分数攻击的精度与攻击强度曲线。
由于基于决策的边界和进化攻击方法只能用于 ℓ 2 ℓ_2 ℓ2攻击,因此我们在图4和图6中给出了在 ℓ 2 ℓ_2 ℓ2范数下的针对非目标边界和进化攻击的8个模型的精度曲线。 防御的特性类似于基于分数的攻击。 可以观察到,由于预测的随机性,与其他防御相比,RSE也抵抗基于决策的攻击。
图4:CIFAR-10上的8个模型在 ℓ 2 ℓ_2 ℓ2范数下针对无目标基于决策攻击的精度与扰动预算曲线。
图6:CIFAR-10上的8个模型在 ℓ 2 ℓ_2 ℓ2范数下针对无目标基于决策攻击的精度与攻击强度曲线。
根据以上结果以及附录C中的更多结果,我们重点介绍了一些关键的发现。
首先,在变化的攻击参数(例如扰动预算或攻击迭代次数)下,针对同一攻击的防御之间的相对鲁棒性可能会有所不同。 不仅图1中的PGD-AT和TRADES的结果可以证明这一点,而且在许多不同情况下的结果也显示出相似的现象。 鉴于此观察,在特定攻击部署下防御之间的比较不能完全证明一种方法相对于另一种方法的优越性。 因此,我们强烈建议研究人员采用鲁棒性曲线作为主要的评估指标,以呈现鲁棒性结果。
其次,在本文研究的防御中,我们发现最可靠的模型是通过基于PGD的对抗训练获得的。 它们的鲁棒性不仅适用于对其进行训练的威胁模型(即 ℓ ∞ ℓ_∞ ℓ∞威胁模型),而且还可以推广到其他威胁模型(例如 ℓ 2 ℓ_2 ℓ2威胁模型)。 但是,对抗训练通常会导致自然精度的降低和训练成本的增加。一个研究方向是开发能够保持自然精度或减少训练成本的新方法。 我们已经看到了朝着这个方向的几个工作。
第三,我们观察到基于随机化的防御对于基于分数和基于决策的攻击具有相当强的抵抗力,这些攻击依赖于黑盒模型的查询反馈。 我们认为,针对这些攻击的基于随机化的防御的鲁棒性归因于模型给出的随机预测,这使得估计的梯度或搜索方向对攻击不可靠。 一个潜在的研究方向是发展更强大的基于得分和基于决策的攻击,这些攻击可以有效地规避基于随机化的防御。
第四,基于输入转换(例如JPEG,Bit-Red)的防御明显提高了未防御者的鲁棒性,并且有时针对基于分数和基于决策的攻击具有更高的精度。 由于这些方法非常简单,因此可以将它们与其他类型的防御措施结合起来以构建更强大的防御措施。
第五,我们发现不同的基于传输的攻击方法在CIFAR-10上表现出相似的性能,而最新的方法(例如MIM,DIM)可以提高对抗性示例在ImageNet上的可迁移性。一个潜在的原因是,ImageNet上模型的输入维度比CIFAR-10上的模型大得多,因此BIM生成的对抗样本很容易“过度拟合”替代模型,从而导致可迁移性差。 为解决此问题而提出的最新方法可以生成更多可迁移的对抗样本。
在本文中,我们建立了一个全面,严格,一致的基准来评估图像分类器的对抗鲁棒性。 我们以两条鲁棒性曲线作为公正的评估标准进行了大规模的实验,以促进对代表性和最新的对抗性攻击和防御方法更好理解。 我们根据评估结果得出了一些关键发现,这可能对将来的研究有所帮助。