对抗性示例是攻击者故意设计的机器学习模型的输入,目的是迷惑模型,使其犯错误。这些例子对基于机器学习的系统的适用性构成了严重威胁,特别是在生命和安全关键领域。为了解决这个问题,对抗性鲁棒性领域研究了对抗性攻击背后的机制以及针对这些攻击的防御。这篇综述回顾了特定的文献子集,这些文献集中研究了在规避攻击下模型鲁棒性背景下训练数据的属性。首先总结了导致对抗性漏洞的数据的主要特性。然后讨论了通过增强数据表示和学习过程来提高对抗性鲁棒性的指导方针和技术,以及在给定特定数据的情况下估计鲁棒性保证的技术。最后,讨论了该领域的知识差距和未来的研究方向。
机器学习 (ML) 的最新进展导致了许多准确且可扩展的基于 ML 的技术的发展,这些技术越来越多地在工业和社会中使用。然而,对基于机器学习的系统安全性的担忧可能会阻碍它们的广泛应用,特别是在安全关键系统领域,如自动驾驶汽车。通过在输入中加入人类无法察觉的噪音来欺骗ML模型做出错误预测的例子是众所周知的[58]:对停车标志的对抗扰动可能会导致机器学习系统将其识别为“最高限速”标志,这可能会导致自动驾驶汽车[48]采取错误和危险的行动(见图1)。同样,恶意软件也可以受到干扰,绕过安全模型,同时仍然保留其恶意行为[41]。
ML模型易受这种情况的影响,即敌对攻击或敌对例子[59,147]。为了解决这个问题,最近的文献研究了对抗性攻击背后的机制,并提出了针对这些攻击的防御措施——通常称为对抗性鲁棒性的领域。机器学习模型在对抗性攻击下的性能(称为鲁棒精度或鲁棒泛化)通常与一般模型精度(称为标准精度或标准泛化)区分开来。
旨在降低模型精度的对抗性攻击大致可以分为逃避攻击和中毒攻击[17, 87]。上面的停车标志示例实际上是一种逃避攻击,攻击者小心地修改输入来误导预测[23,81,96,147]。中毒攻击不是改变模型输入,而是通过向训练数据集中注入损坏的数据来进行攻击,从而损害模型的完整性[57,135,151]。本调查的重点是逃避攻击,因为它们在文献中更常见、更容易获得,也更频繁地被讨论[25,87,95,157]。由于文献中经常使用术语对抗性攻击来指代逃避攻击[81,96,179],在本调查中,我们将这两个术语互换使用。
大多数研究对抗规避攻击的技术都将对抗漏洞归因于学习算法的各个方面和/或数据的属性。现有的许多关于对抗性鲁棒性的调查都集中在对抗性攻击和防御 [7, 87, 187] 以及与学习算法相关的对抗性漏洞的来源 [95, 134]。然而,据我们所知,还没有调查是收集和组织文献集中在数据对对抗鲁棒性的影响。我们的工作填补了这一空白。具体而言,我们研究了(a)数据的哪些属性影响模型的鲁棒性,以及(b)如何选择、表示和使用数据来提高模型的鲁棒性。据我们所知,这是第一个从数据属性的角度分析对抗鲁棒性的调查。
为了收集与我们的调查相关的文献,我们使用了流行的数字图书馆和搜索引擎,选择了研究数据对机器学习对抗鲁棒性影响的论文。我们在机器学习、计算机视觉、计算语言学和安全性方面的顶级科学场所发现了超过4359篇潜在相关的论文。我们系统地检查了这些论文,确定了77篇与我们的调查相关的论文。我们对本文中选取的文章进行了进一步的分析、分类和描述。
主要发现(详细信息请参见第 4 节)。 我们的分析结果表明,与单独实现高精度相比,生成准确且稳健的模型需要更多样本进行训练。学习鲁棒模型所需的样本数量还取决于数据的其他属性,例如维度和数据分布本身。具体来说,具有更高维度的输入数据,即表示输入数据集的特征数量更多,需要更多的样本来生成稳健的模型。这与其他研究结果一致,表明高维对于鲁棒性来说是不利的。此外,某些数据分布本质上比其他数据分布更稳健,例如,高斯混合分布需要比伯努利混合分布更多的样本才能生成稳健的模型。
影响鲁棒性的另一个方面是类内数据样本的密度,它衡量样本之间的距离。论文表明,高类别密度与高鲁棒精度相关,并且对抗性示例通常出现在数据的低密度区域。这是直观的,因为低密度区域意味着没有足够的样本来准确表征该区域。一个相关的属性,浓度,测量在数据区域上定义的函数值(例如错误率)随着区域扩展而增长的速度。如果我们将数据区域的扩展视为对抗性扰动的影响,即在所有方向上扰动样本会导致原始样本定义的区域扩展,那么集中的概念就与对抗性鲁棒性紧密对应。在这种情况下,高浓度意味着错误率随着一个数据区域内所有点的扰动而增长,因此,高浓度的数据集不可避免地显示出非鲁棒性。底层数据分布的类之间的分离也会影响鲁棒性,不同类之间的较大距离是对抗鲁棒性所需要的,因为攻击者需要使用较大的扰动来将样本从一个类移动到另一个类。
影响鲁棒性准确性的另一个方面是数据集中存在错误标记的样本,称为标签噪声。此外,控制标签来推理更多的类,例如,将类“动物”分成“猫”和“狗”可以提高对抗鲁棒性,因为这样的标签允许学习更紧凑的表示样本,共享更强的相似性。
许多论文还确定了与对抗鲁棒性相关的领域特定属性。例如,图像频率-像素值变化的速率-影响鲁棒性,建议在训练数据集中使用不同的频率范围,以防止出现任何频率偏差,从而导致对抗性示例。
实际影响(详见5.1节)。 我们的调查确定了一些可用于提高鲁棒性的可操作指南和技术。这些技术包括数据操作技术,例如使用真实数据或生成数据增加样本数量的技术,特征选择和降维技术,以及学习具有理想数据属性的潜在数据表示的技术,如高密度、高分离和低维。虽然这些技术的目的是改变基础数据的属性,但提高鲁棒性也可以通过基于训练数据的属性操纵学习过程来实现,例如,选择特定的模型和/或基于数据维数配置模型参数,在推理时调整样本,等等。许多方法还提出了估计特定数据的鲁棒性保证的方法,从而可以推断实际设置中固有的鲁棒性限制。
知识差距和未来研究方向(详细信息请参见第 5.2 节)。 我们的文献综述表明,尽管大多数作品从与领域无关的角度研究数据属性,但它们通常仅对图像数据集进行实证评估。这限制了所考虑的攻击类型和鲁棒性测量,因此这些结果可能无法推广到其他领域或数据集类型。此外,大多数作品的形式推导基于非常简单的合成数据模型,例如均匀分布、高斯分布的混合和伯努利分布的混合,与实践中使用的真实数据集相比,这些模型表现出不切实际的假设。我们还观察到,虽然大多数论文仅对特定数据属性进行单变量分析,但大多数属性很难独立优化,例如,在不减少分离的情况下降低维数,因为降低维数意味着样本具有更少的可相互区分的特征。我们还发现,某些属性(例如分离)没有针对具体数据集的标准测量方法。我们认为未来的工作应该关注以上这些方向。
贡献。 这项调查的主要贡献是:
现在,我们简要概述与机器学习、对抗鲁棒性和最常研究的数据分布相关的主要概念。本节的目标是介绍调查其余部分中使用的术语,而不是提供对抗稳健性研究领域的广泛概述。有关更详细的概述,请参阅统计和机器学习 [19, 137, 154] 以及对抗鲁棒性 [17, 27, 113] 的指南。另请参阅我们的在线附录,了解本文中使用的符号和首字母缩写词列表 [168]。
机器学习指的是对数据中有意义的模式进行自动检测[137],主要可以分为有监督学习、无监督学习和强化学习。在监督学习中,学习模型提供了输入-输出数据对(也称为标记训练数据);基于这些数据,该模型旨在推断一个将输入映射到输出的函数。监督学习通常与分类和回归问题相关,它们分别使用分类标签和连续标签。在分类中,输入的可能标签数也称为类数。仅包含两个类别的数据集称为二元数据集,可以在其上训练二元分类器。
与监督学习不同,无监督学习算法通常关注识别未标记数据中的模式,例如,在没有标签的情况下将相似的样本分组在一起(聚类)或将数据转换为不同的表示(表示学习)。强化学习的特点是从一系列奖励和惩罚中学习的算法,其目标是最大化累积奖励,例如,构建能够根据环境信号学习采取最佳行动序列的机器人。
一些变体,如半监督学习(即从部分标记数据中学习)和自我监督学习(即从学习者自己提取的标签中学习)也被提出,用于获取标记数据可能具有挑战性或代价昂贵的问题。
ML算法也可分为参数算法和非参数算法。参数算法在训练开始之前定义了预定的、固定数量的参数。例如,对于线性支持向量机 (SVM),这些参数是训练数据和学习截距的所有特征的系数。对于深度神经网络 (DNN),参数的数量由网络的架构决定。在非参数算法中,参数的数量在训练时确定,并且可能根据训练样本的数量而变化。例如,当需要更多决策点来准确分离训练数据时,决策树的“深度”可能会增长(超出特征集的大小)。其他常用的非参数模型包括 k-最近邻 (k-NN) 和核 SVM。
对抗性机器学习研究对抗性攻击和防御之间的军备竞赛。攻击的目的是降低模型性能,而防御则提出算法来强化模型以抵御攻击。对抗性攻击可以分为逃避和中毒[17, 87]。逃避攻击的目的是通过生成输入来愚弄机器学习模型,尽管这些输入对于人类来说没有明显的差异,但会被机器错误地分类。此类输入被称为对抗性示例,是通过对样本应用非随机扰动而创建的,经过精心设计,可以改变模型的预测[23,81,96,147]。相反,中毒攻击会篡改模型训练数据,从而降低模型性能。在本次调查中,我们重点关注逃避攻击;对抗性攻击和规避攻击这两个术语在文献中经常互换使用,因为这是最流行和最常研究的攻击类型。
机器学习模型的鲁棒性一词通常用于指代不同的概念,例如分布变化的稳定性,识别对抗性例子的能力,以及面对对抗性例子做出正确预测的能力。在本次调查中,我们使用后一种定义——面对对抗性例子做出正确预测的能力。这是比仅仅识别对抗性示例更强的鲁棒性概念,因为对抗性示例的识别并不能保证其正确分类。面对对抗性例子做出令人满意的模型预测的现象通常也被称为鲁棒泛化。这与标准泛化不同,标准泛化用于描述对正常的、未见过的样本做出令人满意的模型预测。
对抗性(逃避)攻击。 根据攻击者可用的信息类型,生成逃避攻击的对抗性示例的技术可以大致分为三类[17]。在白盒攻击中,假设攻击者能够利用有关训练数据、模型和训练过程的所有可用信息。在灰盒攻击中,假设攻击者仅拥有有关模型的部分信息,例如训练数据的来源。最后,最保守的攻击类型是黑盒攻击,其中攻击者除了可能的预测结果外,没有任何有关模型内部工作原理的信息。
基于梯度的攻击 通常用于白盒设置。这些攻击使用在模型权重上定义的可微函数的梯度作为制作对抗性示例时的指导。最常用的可微函数是模型在训练过程中使用的损失函数。梯度定义函数局部值最大增加的方向。因此,通过使用损失函数相对于输入的梯度,我们可以调整输入以获得模型损失的最大增加,这最终会导致错误的预测。快速梯度符号法(FGSM)[60]、基本迭代法(BIM)[81]和投影梯度下降法(PGD)[96]是利用损失函数梯度用于训练的攻击算法的例子。FAB 攻击 [34] 不使用损失函数,而是使用由神经网络倒数第二层的模型输出差异定义的函数梯度,该层输出给定样本属于每个可用样本的概率类。FAB攻击通过将倒数第二层输出的差异定义为可微函数,最大化目标类与其他类之间的概率差异,从而增加误分类的机会。
非梯度攻击 适用于不使用可微函数的更多种类型的模型,例如决策树。这种攻击也可以在黑盒和灰盒设置中使用,当梯度信息对攻击者隐藏时。非梯度攻击的一个例子是模仿攻击,它涉及到在受干扰样本中添加和删除特征,例如,基于它们在目标类[41]中的受欢迎程度。
对抗的防御。 针对对抗性攻击的防御机制针对机器学习管道的各个阶段。具体来说,对原始数据的防御侧重于训练数据本身,例如,通过选择“鲁棒性”特征的子集[73]或使用表示学习将特征转换为不同的表示,确保在新表示上训练的模型本质上更加稳健[174]。
训练期间的防御改变了标准训练程序以提高模型的稳健性。最常见的此类技术是对抗性训练[60],它涉及使用攻击算法生成的对抗性示例不断增强训练数据。通过重新训练模型,同时将正确标记的恶意样本添加到训练数据集中,模型学会捕捉持续的模式,并因此对这些攻击变得更加鲁棒。另一种常见的方法是正则化,其中模型参数受到约束,使得非常小的扰动对预测结果的影响很小[61]。
推理期间的防御重点是在将模型用于预测新样本时使现有模型更加稳健。例如,随机平滑[32]涉及到创建一个样本的多个噪声实例,并在推理期间汇总模型的预测。鉴于对抗性示例通常接近真实样本,对输入的近邻结果进行平均可能会减少模型被误导的机会。此外,使用多个模型并聚合其输出的集成模型的不同变体已被证明可以提高对抗性攻击的鲁棒性[117]。
鲁棒性的衡量标准。 对手的强度主要通过创建对抗性示例所需的扰动的大小来衡量。也就是说,引入更多扰动(例如,改变图像中较大部分像素值)的对手被认为更强。测量扰动大小(尤其是在图像域中)的典型方法是使用 Lp 距离度量,其中 p 可以是整数或 ∞。具体来说,L0计算更改的特征的总数,而不考虑单个特征的更改。L1是曼哈顿距离,即代表每个特征变化的绝对值之和。L2测量原始样本和扰动样本的特征值之间的欧氏距离。L∞度量度量任何特征的最大变化(同时忽略所有其他特征的变化)。
有两种方法可以利用这些距离度量来评估模型的鲁棒性:基于错误率和基于半径。第一种方法计算由一组具有混合允许扰动大小的真实样本生成的对抗样本池[96]。鲁棒性定义为模型对这些对抗样本的错误率。一个相关的概念,对抗性风险,也以类似的方式定义:在一定的预定距离内,针对给定的真实样本找到对抗性示例的概率。基于半径的评估测量了从给定的真实样本生成对抗样本所需的最小距离[147]。这种方法在鲁棒性认证中特别有用,其中涉及学习一个分类器,该分类器输出预测以及保证预测一致的认证半径[83]。
许多作品研究特定数据分布的属性。均匀分布定义了一种概率分布,其中每个可能的数据点的可能性均等。这意味着对于区间 [a,b] 中的连续随机变量,从该区间看到样本的概率为 1/b−a,从区间外看到样本的概率为 0。在具有 n 个可能值的离散情况下,均匀分布为每个值分配 1/n 的概率。伯努利分布定义了一个随机变量的离散概率分布,它有两个容许值,0和1。该随机变量的值为1,其概率为p,其值为0,其概率为1 - p。高斯(正态)分布定义了一个连续的概率分布,该分布分配了一个概率,其峰值在该分布的中心,并向外对称递减。对于高斯分布,µ表示分布的均值或中心,σ2表示分布的方差或扩展。由于均值和方差完全属于高斯分布,所以通常也用N(µ,σ2)表示。
人们还可以想象一个由多个分布混合而成的分布。例如,图 2 显示了由两个高斯分布组成的分布:一个以 µ1 为中心,另一个以 µ2 为中心。这种混合还包含与每个独立高斯分布相关联的标签,如图中两个簇所示。此外,这两个簇具有相同的方差,即围绕类中心的分布具有相同的分布。虽然两个类别的均值是分开的,但分布相互交叉。
根据他们讨论的与鲁棒性相关的数据属性,我们通过组织论文来展示我们的分析结果:样本数量,维数,分布类型,密度,浓度,分离,标签质量和特定领域的性质。讨论不止一个数据属性的论文将在所有相应的章节中呈现。也就是说,在下文中,一篇论文可以在多个部分中进行讨论。第 4.9 节总结了我们的发现。此外,我们的在线附录 [168] 提供了本次调查中收集的论文的详细分类和比较。
为了便于导航,对于每个讨论的数据属性,我们还提供了一张地图,显示相关论文如何通过其引文信息相互关联。我们进一步注释每篇论文的适用性和可解释性类别。具体来说,我们用 A 符号注释论文,提出一种可操作的技术来修改或测量鲁棒性相关的属性;我们用 E 对论文进行注释,特别强调解释数据属性和鲁棒性之间的相关性,而不是建立这种相关性。
样本的数量只是指训练数据集中可用的样本的数量。如图6所示,当圆表示两类数据集的训练样本时,左边数据集的样本比右边数据集的样本少。
样本复杂度是指在鲁棒性或标准泛化方面,达到一定的模型性能(如90%)所需要的训练样本的数量。那么,样本复杂度差距是指实现鲁棒泛化与标准泛化相同的模型性能所需的样本数量的差异。
研究训练样本数量与所得模型鲁棒性之间关系的论文如图 7 所示。它们大致可以分为 1 类论文,讨论样本复杂性以实现鲁棒泛化,2 类论文提出了解决样本复杂性差距的技术,以实现相同水平的鲁棒性和标准泛化所需的样本数量,以及 3 类论文提出了处理数据不平衡的技术,即不同类别的样本数量不相等。
样本复杂性。 Schmidt等人 [132]观察到鲁棒泛化所需的训练样本数量大于同等级别标准泛化所需的样本数量,即,标准泛化和稳健泛化之间存在样本复杂性差距。具体来说,对于在混合高斯分布上训练的线性分类器(在本文的其余部分中称为施密特高斯混合),作者证明,标准泛化需要恒定数量的样本,而等效级别的鲁棒泛化则需要与数据维度成比例的样本数量 (O(√d))。对于非线性分类器中的这种数据分布,样本复杂性的差距也持续存在。然而,对于在伯努利分布的混合上训练的非线性分类器来说,样本复杂性差距消失了;这些分布还需要比高斯混合分布少得多的样本。作者得出的结论是,即使考虑相同类型的分类器,稳健泛化的样本复杂性也取决于分布。他们使用 MNIST [82]、CIFAR-10 [79] 和 SVHN [112] 图像数据集进行的实验验证表明,MNIST更接近伯努利混合,确实比更接近高斯混合的 CIFAR-10 和 SVHN 数据集需要更少数量的训练样本来实现合理的鲁棒泛化,
在后续工作中,Dan 等人 [36]提供了为什么鲁棒泛化需要比标准泛化更多样本的原因,再次关注高斯混合分布。与基于两个高斯分布之间的距离的信噪比 (SNR) 度量不同,该度量已知可以捕获标准分类的难度,作者提出了一种新的对抗性 SNR (AdvSNR) 指标,定义为标准数据和对抗性扰动数据的最小 SNR,以捕获鲁棒分类的难度。然后他们表明,给定特定维度的数据集,实现理论上最佳、准确的分类器所需的样本数量与 SNR 成反比。同样,实现理论上最佳的鲁棒分类器所需的样本数量与 AdvSNR 成反比。由于对于给定数据集,AdvSNR 永远不会大于 SNR,因此实现与标准泛化相同的鲁棒泛化至少需要相同数量的样本。
Bhattacharjee等人[16]研究了线性分类器的样本复杂度差距,作为数据维数(代表样本的特征数量)和分离(来自不同类别的样本之间的距离)的一个因素。当对抗性样本的允许扰动半径近似于类间距离时,样本复杂度差距与数据的维数成正比。然而,当扰动半径远远小于类间距离时,这种差距在分离良好的数据中不再存在。
类似地,Gourdeau等人[66,63]表明,对于基于特征结合和位于布尔超立方体上的αlog-Lipschitz分布的简单分类器,样本复杂度是数据维度 d 和对抗性扰动预算的函数。具体来说,当对抗性扰动大小以 log(d) 为界时,样本复杂度是维数的多项式;当扰动大小至少为 log(d) 时,样本复杂度变为维数超多项式。Javanmard 等人 [75]专注于标准高斯分布的对抗训练线性回归模型。作者表明,当样本数量大于数据维度时,对抗性风险和标准风险之间存在权衡。此外,随着每个维度的样本数量增加,这种权衡也会得到改善。
Cullina等人[35]给出了在与分布无关的设置中使用线性分类器和 Lp 范数有界对手的二元分类问题的鲁棒泛化所需的样本数量的上限。作者使用分类器 VC 维(分类器容量和表达能力的常见度量)推导了上限,之前的研究表明,这有助于确定标准泛化的样本复杂性上限 [137]。他们表明,学习对抗性鲁棒模型的 VC 维度与学习精确模型的 VC 维度保持相同,这意味着在此设置中对于标准和鲁棒泛化,样本复杂性的上限是相同的。然而,作者证明这一结论并不能推广到其他类型的分类器和对手类型。
同样,Montasser等[104]研究了使用单包含图算法[38]构造的二值分类器。他们表明,样本复杂度的下界和上界都是无穷大的,即在此设置下,可以使用无穷大数量的样本来实现鲁棒泛化。
Xu和Liu[169]研究了多类设置下的样本复杂度界限。由于 VC 维度仅针对二元情况定义,因此作者提出了 Adversarial Graph 维度和 Adversarial Natarajan 维度指标,它们扩展了相应的对应维度,图维度[13]和Natarajan维度[111],常用于多类学习。作者表明,样本复杂性的上限受前一个指标的限制,下限受后一个指标的限制。
解决样本复杂性差距。 由于实现鲁棒泛化所需的标记样本数量可能很大且不易获得,因此研究人员探索更便宜的替代方案,例如未标记数据和生成的(虚假)数据。Uesato等人[156]和Carmon等人[24]同时提出使用伪标签[133],这是一种使用在一组标记样本上训练的分类器为未标记样本分配标签的过程,评估其方法对施密特高斯混合的有效性。这两项工作的主要结果是,缩小样本复杂性差距需要大量与数据维数成比例的未标记样本,尽管其数量高于标记样本,这可能是由于生成标签时的噪声所致。主要区别是,Uesato等人表明,在他们的设置(一个特定的线性分类器)中,所需的未标记样本的数量只取决于数据维数,Carmon et al.[24]使用了一个限制较少的设置,并表明未标记样本的数量也取决于标准泛化的原始样本复杂度。这两项研究都在CIFAR-10和SVHN数据集上实证评估了他们提出的方法的有效性,表明在增强模型的鲁棒性方面,未标记数据可能是一种比标记数据便宜得多的替代方法。
Najai等人[109]注意到,使用标记和非标记数据集的混合学习对抗鲁棒模型的最大风险是样本标签中的不确定性。给定伪标签质量的估计,作者推导出标签和未标签样本之间的最小比例,以避免标签不确定性引起的额外对抗风险。
Gowal等人[64]建议使用生成对抗网络(Generative Adversarial Networks, GANs)来生成有标记的数据,而不是使用未标记的数据,因为这可能也很难找到。作者表明,当产生额外的样本时,GANs比其他方法(如图像裁剪)更有效。这是因为这样的模型会产生更加多样化的数据集,这有利于提高稳健的准确性。使用来自CIFAR-10、CIFAR-100[79]、SVHN和微型图像数据集[153]的图像,作者表明,他们提出的方法可以显著提高鲁棒精度,而不需要额外的真实样本。
Xing等[167]解释了真实未标记和生成的数据对对抗训练模型的鲁棒性的影响。由于真实数据在构建决策边界时信息量更大,而且真实的未标记数据和生成的数据都需要伪标记,因此真实的未标记数据和生成的数据之间的差异可以归结为数据生成器的质量。根据这一推理,作者提出了一种策略,在对抗训练中,与真实样本相比,生成样本的损失分配更低的权值,通过交叉验证确定确切的权值(即生成器质量的表示)。
数据不平衡的影响。 Wu等人[166]分析了dnn在长尾分布上的对抗鲁棒性:在训练数据中包含大量样本的类。他们表明,在此类分布上很难实现鲁棒的泛化,并比较了使用专门为此类设置设计的学习算法的多个经过对抗训练的分类器的性能。比较表明,规模不变的分类器 [118, 159] 会产生更高的鲁棒精度,因为它们避免为少数类别分配较小的权重,这反过来又通过减少决策边界中的偏差来促进鲁棒泛化。
Wang等人[163]和Qaraei等人[124]建议使用重新加权的损失函数来提高代表性不足的类别的鲁棒性。具体来说,Wang等人表明,对于高斯混合分布,类之间的鲁棒性差距取决于不平衡量和数据集的整体分离。因此,作者建议修改损失函数以分配与数据不平衡相关的权重,同时促进分离。Qaraei 等人专注于极端的多标签文本分类,其中输出空间非常大并且数据遵循强烈不平衡的分布。他们还建议使用重新加权损失函数来减轻代表性不足类别的鲁棒性问题。
维度是指用于表示数据的特征的数量,例如图8中的特征f1、f2、f3。出于说明目的,我们在图的左侧显示了一个维度为 3 的数据集,在右侧显示了一个维度为 1 的数据集。内在维度是指数据最小表示中使用的特征数量。图9显示了固有维数小于实际维数的情况的示例:图 9a 中的样本位于三维“瑞士卷”上。如图 9b 所示,将卷展开成普通片材,可以仅使用二维来区分样本。
研究数据维度和对抗鲁棒性之间关系的论文如图 10 所示。我们将它们分为论文 1 类描述由于高维度而导致的鲁棒泛化的困难,2 类建议高维数据的鲁棒模型类型和配置,3 类讨论高维对现有防御技术的影响,4 类利用降维技术来提高鲁棒性。
维度的影响。 许多作者表明,在高维空间中,对抗性例子是不可避免的。特别地,Gilmer等人[56]证明了这一点,对于由高维空间(>100)中的两个同心多维球(又称超球)组成的合成二进制数据集,表明平均而言,样本与它们最近的对抗例子比彼此更接近。他们还证明了在该数据集上训练的模型的对抗风险仅取决于其标准精度和维数。Diochnos et al.[45]和Shafahi et al.[136]对均匀分布布尔超立方体数据集和单元超球数据集也给出了类似的结果。De Palma等人[39]证明,无论模型架构如何,对于维数为d的数据集,愚弄分类器所需的扰动与√d成反比。这意味着,随着维度的增加,生成对抗性的例子变得更容易。
另一项工作是分析维度对特定类型分类器的鲁棒性的影响。特别是,Simon-Gabriel等人[142]研究了具有ReLU激活函数和He-初始化权值的前馈神经网络,结果表明,无论网络的拓扑结构如何,输入维度越高,对抗性攻击的成功率就越高。然而,作者证明正则化网络的梯度范数可以降低输入维数对对抗脆弱性的影响,从而提高模型对高维输入的鲁棒性。Daniely等人[37]研究了维数对随机权重和层数递减的ReLU网络的影响。与Simon-Gabriel等人一样,作者证明了ReLU网络的鲁棒性随着维数的增加而降低。
Amsaleg等人[8] 重点关注 k-NN 和其他基于样本邻近性进行预测的非参数模型。作者使用局部内在维度度量来表示特定样本 x 邻域的内在维度。作者的观察是,当这个指标很高时,x 附近的样本就会更多(否则,可以用更少的维度编码更稀疏的邻域)。因此,可以使用小扰动任意改变 x 的最近邻的邻域排序。由于基于邻近度的模型的预测是基于最近邻居排名的,因此这种设置中的对抗风险会增加。
所有上述工作也与第 4.1 节中讨论的许多论文一致,即[16,36,62],它们表明,在各自的设置中,鲁棒泛化的样本复杂性与维数成正比。
模型选择和配置。 Wang等人[164]证明生成鲁棒 k-NN 分类器的最佳 k 取决于给定数据集的维数 d 和样本数 n(k = Ω(√(dn log(n))))。然而,他们指出,对于高维数据,最佳 k 可能太大而无法在实践中使用。因此,作者着重于通过样本选择来提高1-NN算法的鲁棒性,并在Halfmoon, MNIST 1v7, and abalone数据集上展示了他们的方法的有效性。
Yin等人[176]指出,随着数据维数的增加,将训练数据中发现的鲁棒解决方案转移到测试数据中会变得更加困难。然而,约束分类权重可以缓解这个问题。具体来说,作者证明,当 p > 1 时,通过 Lp 范数约束权重会导致训练数据和测试数据之间存在性能差距,该差距与维数具有多项式依赖性;当权重受 L1 范数约束时,性能差距与维数无关。Li等人[86]更关注模型构型。作者表明,在具有ReLU激活的网络中,鲁棒泛化要求网络大小在原始和内在数据维数上呈指数,即使在底层分布是线性可分的最简单情况下也是如此。
Carbone等人[22]研究神经网络,表明对抗性脆弱性是由于实际维度和内在维度之间的差距,即退化而产生的。利用神经网络的梯度信息,将样本向数据流形的正规线方向移动,可以在高维退化数据中生成对抗样例。因此,示例生成利用了额外的维度,而不改变扰动样本的“语义”。然后作者表明,贝叶斯神经网络对于基于梯度的攻击比其他神经网络更稳健:由于其随机性,它们使得梯度对于制作攻击的效果较差。
维度对防御技术的影响。 高维也对旨在提高鲁棒性的防御技术提出了挑战。具体来说,Blum等人[18] 专注于随机平滑技术,该技术通过生成(可能受到扰动)样本的噪声实例,然后根据噪声实例的预测聚合来对样本进行预测,从而提高鲁棒性。作者表明,对于p> 2,防御Lp对手所需的噪声量与维数成正比。他们进一步证明,对于高维图像,随机平滑确实无法生成保留语义图像信息的实例。在类似的研究中,Kumar等人[80]表明,当使用随机平滑来证明给定Lp半径的鲁棒性时,认证半径会随着维数的增加而减小。
对抗性训练是一种防御技术,通过针对可能的对抗性示例自适应地训练模型来提高模型的鲁棒性,通常会在标准精度和对抗性精度之间进行权衡 [155, 183]:对高鲁棒精度的优化会导致标准精度的下降,反之亦然。Mehrabi等人[101]以Javanmard等人[75]的工作为基础,在4.1节中讨论了这一问题,该问题表明,对于有限数量的训练样本,对抗性精度和标准精度之间的权衡随着每个维度样本数量的增加而改善。Mehrabi等人进一步将这一结果扩展到无限的训练数据和计算能力,观察到,对于无限数量的训练样本,对抗和标准精度之间的平衡随着数据维度的降低而提高。
数据增强是另一种常见的防御技术,旨在通过从训练数据中原始样本的某个子集创建半径为 r 的扰动样本来提高模型的鲁棒性。Rajput等人[125]证明,对于线性和某些非线性分类器,鲁棒泛化所需的增广数取决于数据的维数,即对于任何固定半径 r,它至少与维数成线性比例。因此,对于高维数据来说,数据增强变得更加昂贵。
降维。 根据实际维度和内在维度之间的差距会导致对抗性脆弱性的观点,Awasthi等人[10]提出在采用随机平滑之前,使用主成分分析(Principal Component Analysis, PCA)[78]来降低数据的维数。因此,可以注入大量噪声来扰乱样本,从而在不影响准确性的情况下提高鲁棒性。作者将所提出的想法应用于图像数据,表明 PCA 和随机平滑的组合比单独使用随机平滑更有益。Weber等人[165]表明,对于分层数据,将表示从欧几里德空间更改为双曲空间可以降低维数,而不会牺牲输入数据中嵌入的语义信息。
分布是指一个函数,它对样本在空间中的分布进行编码,通常是通过给出它们在特定区域出现的概率。常见的分布类型,如均匀分布、伯努利分布和高斯分布将在第2.3节中介绍。图11显示了遵循高斯分布(左)和伯努利分布(右)的数据集的例子。方差一词指的是考虑到数据集中所有数据点的分布的离散度度量。具体来说,分布的方差衡量样本相对于均值的分散程度;特征方差仅衡量样本在特定特征上的分散度。当均值两侧的分布彼此镜像时,我们说分布满足对称性。
讨论分布特性(包括方差和对称性)如何影响模型稳健性的论文如图 12 所示。它们可以分为:1表明模型鲁棒性取决于底层数据分布的论文,2确定了增强鲁棒性的分布属性的论文,3介绍了将分布转换为更具鲁棒性的最优分布技术的论文。
分布类型。 如4.1节所述,Schmidt等人[132]证明,对于非线性分类器,混合高斯分布比混合伯努利分布具有更高的鲁棒泛化样本复杂度。同样,Ding等人[44]表明,在保持相同的标准精度的情况下,仅分布偏移就能影响鲁棒精度。具体地说,作者证明了在单位立方体上的统一数据比在单位球体上的统一数据产生了更健壮的模型。他们进一步对MNIST和cifar10数据集进行实验,应用现有的语义无损变换,即平滑和饱和,来引起分布偏移。实验结果表明:MNIST由单位立方型向单位球型转变时,鲁棒性逐渐降低;cifar10由单位立方型向单位球型转变时,鲁棒性增加;在这两种情况下,模型都保持了它们的标准精度。
Fawzi等人[49]研究由平滑生成模型建模的数据分布的鲁棒性,平滑生成模型是一种生成模型,它将样本从输入空间映射到输出空间,同时保持它们的相对距离,例如压缩数据。作者表明,具有高维输入空间的平滑生成模型产生的数据分布使得任何在该数据上训练的分类器本质上都容易受到攻击。作者得出的结论是,当使用生成模型对数据进行建模时,非平滑性和低输入空间维度是理想的。
分布的性质。 Izmailov等人[74]研究表明,在二元分类设置中,两个类别中方差较小且彼此接近的均值的特征会导致对抗性脆弱性。此外,在一个类中具有较小方差的特性仍然可能导致漏洞,即使该特性在两个类中的均值分离得更远,但第二类具有较大的特征方差。直观上,这是因为模型倾向于为这些特征分配非零的权重,攻击者可以利用这些权重将分类转换为错误的类。也就是说,在这些特征中,即使是很小的扰动也可以将数据点转移到另一个类中。为了提高鲁棒性,作者建议根据领域知识或基于特征评估指标(例如互信息)删除这些特征[139]。
类似地,Lee等人[84]证明减少各个类中的特征方差可以提高施密特高斯混合的鲁棒性。这些混合对于所有类别和分离均值具有等效的特征方差。在这样的设置中,低特征方差意味着该特征与类别具有很强的相关性,并且干扰该特征不太可能导致漏洞(即,可能会导致语义上有意义的变化)。然而,即使特征具有较低的方差,如果这些特征是非鲁棒的[73],即不包含语义信息,并且训练数据中的方差比底层真实总体中的方差更小,它们仍然会导致对抗性脆弱性,因为经过对抗性训练的模型往往会过度对待它们。作为一种对策,作者提出了一种基于标签平滑的数据增强技术,该技术使用连续值代替离散值作为标签,其作用类似于一种正则化方法,以防止模型过度覆盖这些特征。
Richardson和Weiss[128]认为,次优的数据分布和/或次优的训练方法可能会导致对抗性脆弱性。作者用分离均值的高斯分布来定义合成二值数据集,并说当且仅当类具有相同的方差时,一个数据集是对称的。他们进一步证明,当底层数据集具有很强的不对称性时,即使是最佳分类器也是不鲁棒的,如图 13 中的示例所示。如果数据集是对称的,则最佳分类器可证明是鲁棒的,即使在该数据集上训练时次优训练方法仍然可能导致漏洞。
转换分布。 Pang等人[115]和Wan等人[158]都将潜在的DNN特征表示方式改变为类似于高斯混合。特别是,Pang等人表明,对于在高斯混合上训练的线性判别分析(LDA)分类器,LDA的鲁棒性半径与高斯中心之间的距离成正比。对于对称高斯混合,LDA 的鲁棒性进一步最大化。因此,作者修改了 DNN 损失函数,以创建类似于对称高斯混合的潜在特征表示,并进一步将 DNN 的最后一层从常用的 Softmax 回归 [33] 替换为 LDA。为了获得理想的鲁棒性半径,作者计算了理想高斯中心的坐标(作为输入数据的类数和维数的函数),并将这些数据输入损失函数。从对称高斯混合有利于潜在模型鲁棒性的假设出发,Wan等人在生成对称高斯特征分布的同时,修改DNN损失函数,直接计算高斯分布的中心。
密度衡量特定边界区域中样本的紧密程度。对于连续数据,它在数学上是通过概率密度函数来描述的,它给出了变量取一定范围值的概率。对于离散数据,它被描述为概率质量函数,它给出变量取特定值的概率。当随机样本很可能位于同一区域(即彼此靠近)时,我们称该区域是密集的。例如,图 14 右侧的数据集包含大量接近的样本,因此比该图左侧的数据集更密集。此外,密度可以定义为来自一个类别的样本,在这种情况下,它被称为类别密度。
研究密度如何影响对抗鲁棒性的论文如图 15 所示。它们大致可以分为 1 讨论类密度对鲁棒性影响的论文和 2 提出使用密度信息进行攻击和防御的论文。
类密度的影响。 Shafahi等人[136]表明具有更高类密度上限的数据集具有更好的鲁棒性。特别是,对于图像数据集,作者表明,较低复杂度的图像,例如,在普通背景上的简单对象,相邻像素之间有较高的相关性。由这些图像组成的数据集具有更高的密度,因为像素值的重复频率更高,因此具有更好的鲁棒性。作者证实了这一观察结果,显示在MNIST上训练的分类器比在CIFAR-10上训练的分类器具有更低的图像复杂度和更高的密度,比在CIFAR-10上训练的分类器更鲁棒。此外,作者指出,类密度比维数更能预测鲁棒性:即使在将MNIST提升到与CIFAR-10相同的维度后,它仍然具有更高的密度,从而产生比CIFAR-10鲁棒的分类器。
Naseer等人[110]表明,与样本数量的差异相比,类密度的不平衡更能预测类间的鲁棒性偏差。作者进一步提出了一个两步策略来消除这种偏见,通过数据增强。首先,他们逐渐增加所有类样本的扰动大小,并确定哪些类别因最小扰动大小而被错误分类,将其视为低密度的迹象。然后,他们为这些类别生成真实且多样化的样本,以减少不平衡,从而提高鲁棒性。
使用密度的攻击和防御。 一些工作指出,对抗性示例通常出现在训练数据集的低密度区域中,因为模型无法使用这些区域中的少量样本来学习准确的决策边界。Zhang等人[182]提出了一种攻击策略,从低密度区域检索候选样本,并对其进行扰动,生成对抗样本。作者证明,即使经过对抗性训练,模型对于针对这些低密度区域的对抗性攻击也不具有鲁棒性。
Zhu等人[189]也有类似的发现,来自低密度区域的对抗例子在同一数据集上训练的不同模型之间具有更高的可转移概率。根据这个观察,作者提出了一种攻击,通过识别使潜在数据分布的对抗风险最大化和与密度减小方向对齐的扰动方向,来增加对抗实例的可转移性。即将样本移向密度较低的区域。
与低密度地区容易受到敌对攻击的观点不同,Song等人[144]专注于创建一种防御机制,在进行预测时使用生成模型来检测样本是否来自低密度区域。如果是这样,则将样本移向训练数据的更密集区域,作为“纯化”步骤。
为了直接强化模型,Pang等人[116]提出了一种新的dnn损失函数,用于学习密集的潜在特征表示。作者首先证明了常用的Softmax交叉熵损失函数会引入稀疏表示(即低类密度),从而导致脆弱模型。这是因为彼此接近的样本数量较少会阻止模型学习可靠的决策边界。然后,他们提出了一个损失函数,明确鼓励特征表示集中在类中心周围;就像他们早期的工作 [115] 一样,作者计算所需类中心的坐标(作为类数量和输入数据维度的函数)以最大化中心之间的距离。作者证明,所提出的方法提高了标准训练和对抗训练下的鲁棒性。
与密度密切相关,分离是指类之间的距离。图16显示了没有很好分离(上)和很好分离(下)的数据集的例子。直观地说,当数据很好地分离时,学习一个准确的分类器更容易,因为来自不同类别的样本距离更远,而来自同一类别的样本距离更近。量化分离的不同指标包括最佳传输距离(计算将样本从一个类运输到另一个类所需的最小距离)和类间距离(计算不同类样本之间的距离)。
讨论数据分离与对抗鲁棒性关系的论文如图17所示。大致可以分为1文章展示了分离对鲁棒性的影响,2文章提出了促进分离从而提高鲁棒性的技术。
分离的影响。 Bhagoji等人[14]使用最佳传输距离计算二元分类设置中对抗风险的下限。结果表明,随着两个类分布之间距离的增加,下界减小,即,分类器变得更加鲁棒,分离效果更好。基于这一结果,他们估计了 MNIST 和 CIFAR-10 等图像数据集的最小对抗风险,结果表明理论计算的风险低于最先进的防御模型实现的经验值。作者的结论是,现有技术仍有改进的空间。
Pydi 和 Jog [122, 123] 得出了类似的结论,即鲁棒性随着类之间分离的增加而提高。作者进一步关注具有简单单变量分布的数据集,例如高斯分布和均匀分布。他们提出了一种构建分类器的技术,这种分类器可以在给定的分类中实现最佳的、最低的可能对抗风险。这种技术背后的主要思想是分析将样本从一个类传输到另一个类的最佳方式(它表示创建对抗示例所需的最小扰动)并进一步使用这些信息来识别决策边界,该边界导致在类之间传输样本所需的最大距离。也就是说,该方法使每个类的样本与决策边界之间的距离最大化,从而得到最优稳健的分类器。
Bhattacharjee等人[15]证明了某些非参数模型,如k- nn,在大量分离良好的样本上训练时具有固有的鲁棒性。这是因为这些分类器基于邻域和良好分离的数据进行预测,确保彼此接近的样本共享相同的标签。在他们后期的工作中(在4.1[16]节中讨论),作者表明,在分离良好的数据中,鲁棒精度与维数无关,并且鲁棒线性分类器可以在不需要大量训练样本的情况下学习。这一结果表明,可以通过增加分离来有效地抑制对抗性脆弱性。
促进分离。 Yang等人[175]提出了一种基于样本选择的技术,通过增加训练数据之间的分离来提高非参数模型的对抗鲁棒性。特别是,当来自不同类的训练样本接近时,非参数模型倾向于学习复杂的决策边界,作者提出移除最小的样本子集,使所有不同标记的样本对即使受到最大扰动大小的扰动也保持分离。Wang等人[164]在4.2节中已经讨论过,他们专注于提高1-NN分类器的鲁棒性。这样的分类器很难利用相邻的点和相反的标签,这导致了更糟糕的稳健性。因此,作者建议保留最大的训练样本子集,这些样本集(i)分离良好,(ii)与附近样本的标签高度一致(即高度可信)。作者表明,他们的方法优于经过对抗训练的 1-NN。
对于非参数分类器,一个更有效的策略是在潜在表示中强制分离。特别是,Mustafa等[107]将对抗脆弱性的原因归结为潜在空间中类的接近性。因此,他们提出了一个损失函数来学习中间特征表示,将不同的类分离成凸多面体,即高维多面体,最大限度地分离。Mygdalis等人[108]提出了一个损失函数来将类划分为超球,使得类别中的样本距其超球体中心的距离最小,距其余超球体的距离最大。作者证明,他们的方法优于Mustafa等人[107]和其他基线,对CIFAR-10、CIFAR-100和SVHN具有标准和鲁棒的准确性。
Bui et al.[21]观察到,DNN 的对抗性脆弱性源于干净数据和对抗性数据之间中间层值的巨大差异。因此,他们建议修改损失函数,使其产生一种中间潜在表征,在干净样本和相应的对抗样本之间具有高度相似性,同时促进大的类间距离和小的类内距离,并增加从类中心到决策边界的边界。同样,Pang等[115]和Wan等[158]在4.3节讨论,Pang等[116]在4.4节讨论,通过分离产生的潜在分布的中心来提高DNN的鲁棒性,这反过来又增加了类之间的分离。类似地,Cheng等人[30]建议通过在所有类别的所有方向上强制方差相等(分布归一化)并最大化任意两个类别之间的最小边距(边距平衡)来改善分离。
Yang等人[173]提出了一种表征-学习技术来学习特征表征,该技术将C类的样本和C类生成的对抗性样本靠近,同时将C类的样本从(i)其他类生成并误分类为C类的对抗性样本和(ii)其他类的样本中分离出来。这些分离是由作者提出的损失函数强制执行的。作者表明,与标准的DNN相比,他们的方法提高了模型的鲁棒性。
Garg等人[52]提出了一种使用图论为数据集生成良好分离特征的方法。具体来说,它们将输入数据集转换为图,其中顶点对应于输入数据点,边表示数据点之间的相似性(例如,使用欧几里得距离计算)。作者证明,使用捕获图结构的拉普拉斯矩阵的特征向量提取的特征将在数据点之间产生显着变化,同时对小扰动具有鲁棒性。这些品质使它们成为具有强大功能的良好候选者。然后,作者证明,使用他们的方法生成20个特征的MNIST数据集上训练的线性模型,比使用MNIST数据集的全像素值训练的全连接神经网络对基于l2范数的传输攻击更鲁棒。
数据集的集中是指测度理论中的“测度集中”现象[148]。简而言之,浓度是一个被测函数在所有有效可测集上的最小值,在ϵ-expansion之后。更正式地说,对于具有实例空间 X、概率测度 µ 和距离度量 d 的度量概率空间 (X, µ,d)。
图18显示了如何利用度量现象的浓度来确定对抗扰动后的分类误差。通过将分类误差集建模为可测量集 A,将扰动预算 ϵ 的对抗误差建模为 Aϵ,我们可以将数据的浓度与误差µ(A)≥α的任何不完美分类器的最小对抗风险联系起来。使用此公式,高度集中的数据集意味着,对于某些非零初始误差,误差集上 ϵ 扩展的最小对抗风险非常大。我们将此类数据集称为具有低内在鲁棒性的数据集,即代表数据集上任何分类器的最大可实现鲁棒性的度量。
图 19 显示了将数据集中与对抗鲁棒性联系起来的论文。它们大致可以分为:1论文讨论了集中对鲁棒性的影响,2论文提出了通过计算集中来估计鲁棒性的技术。
集中的影响。 许多论文利用测量集中现象证明了对抗性例子的必然性。特别是,Dohmatob [46] 研究了符合均匀分布、高斯分布和满足 W2 运输成本不等式的其他几个分布的数据集 [149]。作者证明满足该不等式的数据分布具有较高的集中度,这将导致鲁棒性迅速下降,超过一个临界扰动大小–一个取决于分类器的标准误差和数据集的自然噪声水平的值,反过来,它被定义为高斯分布情况下的最大方差。尽管MNIST可能不满足w2传输成本不等式,但作者使用该数据集进行了实验,发现随着扰动大小的增加,鲁棒性突然下降。因此,作者认为 MNIST 数据集也可能具有高集中度,并受到测量现象集中度的控制。
Mahloujifar等人[97]关注的是一组高度集中的数据分布集合,称为Lévy族[85],其中包括单位球、单位立方体和各向同性n-高斯分布(即具有相同方差的自变量的高斯分布)。作者证明,在这种高度集中的数据分布上训练的分类器可以接受维度 d 具有扰动 O(√d) 的对抗性示例。这意味着相对较小的扰动可能会误导在这些具有高维输入的数据分布上训练的模型。
通过集中估计稳健性。 几种方法利用集中和对抗风险之间的联系,通过计算数据集的集中来估计数据集的内在鲁棒性。Mahloujifar等人[98]首先提出了一种利用样本子集估计数据集集中的方法。特别地,作者提出了一种基于根据扰动范数(例如L2范数的球并集)精心选择的子集集合来搜索最小展开集的技术。他们证明,随着样本大小和所选子集的质量/代表性的增加,估计的集中值会收敛到基础分布的真实值。作者应用他们的方法来估计MNIST和cifar10数据集的最大可实现稳健性,观察到导出的理论值和由最先进的模型观察到的经验值之间的差距。
在后续工作中,Prescott等人[121]提出了一种基于半空间展开的集中估计方法,该方法使用L2范数[20]的高斯等周不等式。作者进一步将他们的结果推广到Lp规范中,其中p≥2。与Mahloujifar等[98]相比,他们的方法在MNIST和CIFAR-10上产生了更高的可实现鲁棒性,揭示了理论鲁棒性与最先进技术之间的更大差距。由于从集中度角度推导出的理论上可实现的稳健性很高,作者认为,除了集中度以外的其他因素可能导致了这种差距。
Zhang和Evans[186]假设可以访问有关标签不确定性的信息,即为任何数据点分配标签不确定性级别的函数。此类函数可以使用多个人类注释者的标记结果或 ML 分类器的置信度分数等。作者建议,考虑标签不确定性高的区域可以指导集中估计,因为这些区域是分类者更容易犯错误并且容易受到攻击的区域。因此,他们提出了一种估算浓度的方法,即通过确定ϵ-expansion之后的最小集,且平均不确定性水平大于预先设定的值。评估结果表明,与上述任何一种方法相比,该方法估计的最大可实现鲁棒性更接近CNN模型在CIFAR-10数据集上观察到的鲁棒性值,这意味着改进的空间比之前假设的要小。
标签质量是指分配给训练数据集的标签集的正确性和信息量。标签正确性,或者相反,不准确标签的存在(如图 20 左侧突出显示的点所示)通常被称为标签噪声。标签的粒度通常称为标签信息量。图 21 概述了讨论标签质量和模型鲁棒性之间关系的论文。
Mao等人[100]表明,对多任务同时训练模型,例如,同时定位和估计图像中物体的距离(这种方法也被称为多任务学习),提高了鲁棒性。这是因为在多任务学习中,模型通过训练来自多个任务的标签数据来学习共享的特征表示。因此,同时攻击多个任务所需的扰动(例如,通过在对象识别和距离估计方面误导模型来破坏自动驾驶系统)会相互抵消。虽然作者证明模型对对抗性攻击的鲁棒性与其所训练的任务数量成正比,但当同时训练的任务彼此高度相关时,多任务学习的好处就会消失,因为它减少了扰动相互抵消。作者进一步表明,多任务训练也提高了模型对单任务攻击的鲁棒性。
Sanyal等人[131]假设标签噪声和粗糙标签是敌对性脆弱性的原因。作者证明,给定一个带有随机标签噪声的大型训练集,任何过度拟合该数据集的分类器都可能容易受到对抗性攻击的影响。这是因为过度拟合会导致决策边界过于复杂,从而为攻击留下更多空间,
作者还证明,对抗风险随着标签噪音水平的增加而增加。防御机制(例如提前停止和对抗性训练)可通过防止模型过度处理噪声样本来增强鲁棒性。在没有标签噪声的情况下,使用粗略标签(例如,为整个类别的狗使用一个标签,而不是为每个狗品种使用标签)会导致“次优”潜在特征表示,并且也会导致对抗性脆弱性。Shamir等人[138]对于高维数据和分段线性分类器,如具有ReLU激活的DNN,也得到了类似的结果:生成成功的对抗例子所需的扰动数量与类的数量成正比,这使得在带有细粒度标签的数据上训练的模型更加健壮。
Dong等人[47]表明标签噪声是对抗性训练的固有部分,因为分配给对抗性示例的标签可能并不总是与其“正确”标签相匹配。作者表明,对抗性训练中引入的标签噪声量与对抗性示例的扰动半径和模型预测的置信度成正比。他们进一步提出,通过过滤高扰动半径生成的低可信度样本来缓解这一问题,并证明他们的方法可以在CIFAR-10、CIFAR-100和Tiny Images Dataset上实现比标准对抗训练更高的鲁棒精度。
Zhang等人[181]利用软标签,即捕获某个数据点属于某个类的概率的标签,来学习类之间的关系。这鼓励模型学习将相似样本归为一组的表示,从而增加类内密度,并因此增强鲁棒性。
此类论文深入探讨了特定领域数据属性与对抗鲁棒性之间的相关性。在我们收集的论文中,所有特定领域的研究都集中在同一主题:理解基于图像频率的图像分类器的对抗性漏洞 - 即像素值强度相对于空间变化的速度有多快(例如,颜色变化剧烈的图像具有高频率)。如图 23 所示,由于黑白条纹,斑马的皮肤比马具有更高的图像频率。研究图像频率的论文如图 24 所示。它们大致可以分为:1讨论频率分布对模型对抗鲁棒性的影响的论文,2利用人类和模型之间的感知差异解释对抗性漏洞的论文。
图像频率的影响。 Wang等人[160]将对抗例子归因于人类和ML模型在频率范围内的感知差异:虽然高频成分对人眼来说是不可见的,而且人类主要基于低频成分对图像进行分类,但模型可以利用这两个范围,从而在高频范围内创建人类无法察觉的对抗例子。作者建议使用更平滑的卷积滤波器来减少模型对高频分量的关注,从而提高鲁棒泛化能力。
Deng和Karam[42,43]也承认并通过实验论证了人类视角与模型视角之间的差异。作者将重点放在普遍对抗扰动上,即,对从数据分布中采样的大多数输入造成标签变化的输入无关扰动,注意到这种扰动可以通过利用人类对不同频率范围的敏感性产生。他们利用这一观察结果,通过利用 Just-Noticeable-Difference [5, 72] 度量来生成高成功的对抗性示例,该度量近似沿不同频率范围的最大不可察觉扰动。通过实验,作者证明人类通常对低频分量的变化比高频分量的变化更敏感。
Zhang等[180]观察到成功的普遍对抗扰动主要由高频分量中的扰动控制。作者还表明,这种扰动会导致具有更多低频成分的图像发生更明显的变化,使它们更容易受到普遍的对抗性扰动的影响。Chen等人[28]也支持同样的观察结果,他们使用一种可解释的技术将预测归为数据:由于对抗训练过程关注高频成分,接受过对抗训练的模型更多地依赖于低频成分,而标准模型则同时利用高频和低频成分。然而,作者表明,使用高频成分对于准确预测某些类别是必要的。因此,当模型通过对抗性训练学习优先考虑低频成分时,高频图像的准确性就会受到影响。
Yin等人[177]概述了使用高频分量产生扰动的技术的另一个缺点,如对抗训练和高斯数据增强技术:它们导致模型更容易受到低频扰动的影响。同样,Ortiz-Jimenez等人[114]展示了卷积神经网络模型在低频范围相对于高频范围往往有更小的边界,并且对抗训练导致模型对高频扰动有显著更大的边界,这使得模型对低频扰动更加敏感。
Sun等人[146]也观察到了对低频扰动的鲁棒性较低的问题。然而,在这种情况下,它是由使用推理时间技术(随机平滑)而不是对抗训练引起的。上述工作建议通过增加训练数据中频率分布的多样性来缓解这些问题。
其他图像属性的影响。 与上述关注图像频率的工作不同,Chen 等人[26] 认为 CNN 的对抗性脆弱性是由于它们过度依赖图像的幅度信息–图像中不同频率的大小。作者表明,用另一幅图像的信息替换一幅图像的幅度信息可以成功地误导 CNN,但不能误导人类,因为人类更依赖相位信息(特征的位置)来识别物体。基于这一观察,作者建议通过一种数据增强技术来加强 CNN 对相位信息的关注,该技术在模糊幅度的同时保留相同的相位信息。
针对医学图像分类,Ma等人[94]指出,在ImageNet等自然图像数据集上预先训练的图像分类器应用于医学图像时,具有较低的对抗鲁棒性。作者将这种退化归因于独特的生物纹理,以及与自然图像相比,医学图像相对简单。他们认为,为自然图像设计的模型很可能对非病变区域中存在的噪声进行过度拟合,因此,这些区域对对抗性扰动的敏感性更高。
总体而言,接受调查的论文对于每个已识别的数据属性如何影响对抗鲁棒性的看法基本一致。主要调查结果如下。
我们现在总结我们的研究结果的实际意义,提取了通过操纵数据和学习过程来提高对抗鲁棒性的指导方针和技术,以及估计特定数据的最佳情况鲁棒性的技术(第5.1节)。然后我们概述了研究中的差距和未来工作的可能方向(第 5.2 节)。
通过操纵数据提高鲁棒性。 我们确定了通过数据操作技术提高鲁棒性的两个主要方向:
1. 增加数据集的规模和多样性。 收集大量真实的标签样本来训练负面稳健模型可能是一项挑战。我们的调查显示,可以采用更便宜的数据收集方法,如未标记或生成的样本,然后使用半监督学习技术,如伪标记,从这些样本中学习[24,64,109,156]。此外,数据维数可以用来指导增强或生成样本的数量,以提高鲁棒性[125]。我们的调查还显示,使用精细的标签可以导致更鲁棒的模型。
收集数据时,有必要增加样本的多样性,例如,在图像 [146, 177] 的情况下,包括低频和高频范围的样本。此外,假设整个数据分布的知识,在基础数据流形上定义数据属性,如内在维数和分离;然而,出于实际目的,这些属性是针对具体的数据集进行估计和执行的。当训练样本不能正确地接近底层分布时,这可能会导致不正确的期望/估计。例如,通过选择样本生成训练数据的一个分离良好的子集可以提高非参数模型的鲁棒性[161,4175],但这种策略不适用于更复杂的分类器,因为样本选择并没有使底层分布更加分离。密切关注训练数据集的代表性可以帮助缓解这个问题。
2. 清理和转换数据。 除了收集大型且多样化的数据集之外,还有多种方法可以提高现有数据的质量。例如,可以使用领域知识和/或自动特征选择技术(例如互信息增益[139])来删除方差较低的特征,这有助于降低维度并提高鲁棒性[74]。降维技术将样本投影到低维空间,例如 PCA [78],也减少了对抗性脆弱性 [10]。另一种方法依赖于使用图论[31]将数据集转换为使用成对距离作为边的图,可以帮助生成最大化不同类样本之间距离的特征,从而产生良好分离的特征表示[52]。
许多基于学习的技术都使用损失函数来优化更复杂的数据属性。虽然常见的损失函数,例如 Softmax 交叉熵损失 [116],可能会导致稀疏表示(即类密度低),更高级的损失函数可以利用类间或类内距离来学习特征表示,这些特征表示将点聚集在类中心周围和/或促进类之间的分离[21,30,106,108,115,116,173],从而增加鲁棒性。生成类似于对称高斯分布的潜在表示也可能是有益的,这已被证明可以提高鲁棒性 [115, 158]。
通过操纵学习程序来提高鲁棒性。 有关数据集属性的知识可以通过操纵学习过程进一步帮助提高鲁棒性:
1、选型与配置。 当决定针对特定数据集训练的模型时,概率模型(例如贝叶斯神经网络 [22])在给定不需要的数据属性(例如高维度 [22])的情况下表现得更加稳健。对于遭受类别不平衡的数据集,可以使用尺度不变分类器 [118, 159] 来减少类别之间的稳健性偏差 [166]。
数据属性对于确定模型的配置也很有用。例如,数据维度可以指导训练鲁棒参数模型(例如 DNN)所需的参数数量,以及用于约束其权重的正则化类型(例如,L1 范数而不是常用的 L2 或 L∞ 范数)[86 ,176]。维数还可用于确定非参数模型中的超参数,例如 k-NN 中的 k [164]。
2. 训练和推理程序。 在训练期间,学习同时执行不同的任务可以产生更稳健的模型 [100, 131]。当面对不平衡的数据集时,可以使用为不同类别的样本分配不同权重的损失函数来减轻类别不平衡对鲁棒性的影响[166]。
在推理时,可以使用样本净化方法,如随机平滑[32],通过添加噪声来抵消精心设计的扰动的影响,来防御对抗攻击。净化也可以通过生成模型来实现,在进行预测之前,将样本从低密度区域移动到高密度区域,即从低可信度区域移动到高可信度区域[144]。
评估稳健性。 数据相关指标可用于评估数据集固有的稳健性限制。特别是,几种方法[98,121,186]凭经验计算集中度并用它来获得最小的对抗风险。类似地,类之间的最佳传输距离可用于估计具体数据集的风险[14,122,123]。估计最小对抗风险可以作为可实现鲁棒性的指标,在观察到的鲁棒性显著低于可实现值的情况下,这可以启发人们尝试替代的数据收集、处理和学习策略。
实证评估。 除了第 4.8 节中概述的十篇论文外,所有论文都研究与领域无关的数据属性。然而,我们调查的大多数论文仅对图像数据集进行实验评估。研究结果和所提出的方法对其他领域(具有不同形式的数据)的适用性可能需要进一步调查。例如,对于恶意软件检测中常用的带有二进制特征的数据集,不能随意改变特征值来减小样本之间的距离。这进一步表明,用于在图像领域建模对手的通用距离度量,如L2和L∞,未能准确捕捉这些领域中的对手威胁水平。因此,未来需要在其他领域和数据类型中应用、调整和评估所提出的指标和技术。
简化的问题设置。 一些研究使用简化的问题设置(例如纯高斯数据分布)来提供与所研究现象相关的形式证明。虽然此类工作有助于增进知识和我们对数据对对抗鲁棒性影响的理解,但还需要开展额外的工作来研究实践中使用的实际数据集的结果的普遍性。例如,假设训练数据上的所有类都具有统一的数据属性,例如相同的分布、密度和标签噪声水平,这大大简化了证明,但在现实中并不常见。同样,仅考虑二元分类简化了数据分离的计算,可以通过测量两个类之间的距离来计算数据分离。然而,在多类设置中,需要考虑来自多个类的数据点的接近度。
此外,大多数论文只考虑白盒攻击设置,这在许多实际场景中可能不现实。尽管白盒设置可以对最坏情况的对手进行建模并提供更好的鲁棒性保证,但它可能会导致过于悲观的结果,即某些数据转换可能对黑盒攻击具有鲁棒性,但仍然容易受到白盒攻击。因此,未来的工作可能会研究数据属性对不同类型的攻击场景的影响。
数据和模型的相互作用。 即使训练数据的鲁棒性是最佳的,次优的训练方法也可能导致对抗性漏洞[128]。例如,当分类器的复杂性与数据的复杂性不匹配时,可能会出现对抗性漏洞,例如,CNN 在具有良好分离均值和相似方差的对称数据上,由于其复杂性,其鲁棒性可能比更简单的模型(例如核支持向量机)要低 [128]。为了缓解此类问题,一些论文提出根据数据的维度来选择、改进或优化分类器[22,164,176]。研究数据其他属性(例如分离和密度)的类似工作可能很有价值。未来的工作还可以探索确定输入数据(相对于模型本身)是否是对抗性脆弱性的主要原因的策略。
训练数据集与数据分布。 正如 5.1 节中所讨论的,代表性训练数据对于真正估计整个底层数据流形的属性是必要的。然而,在实践中,收集有代表性的数据集是一项挑战,数据属性,如分离和密度,通常是在具体的数据集上进行评估。关于如何评估观察到的数据属性与真实数据属性之间的差距的更多研究可能是有价值的。
未标记样本的有效选择。 随着计算能力和高效算法的增强,对大规模训练数据的需求不断增长。然而,手动标记所有样本在多个领域仍然不切实际。许多工作 [24,109,156] 表明,使用未标记和生成的样本有助于弥补样本复杂性差距,以开发更稳健的模型。Xing等人[167]评估生成样本的质量。来自理想生成器的样本(也称为真实的未标记样本)。然而,由于未标记样本的质量是不确定的(例如,在执行猫与狗二元分类时,它们可以在同一张图片中包含猫和狗),需要研究未标记样本质量对模型稳健性的影响。此类研究可以进一步促进在鲁棒模型训练中优先考虑特定未标记样本的技术的开发。
属性的相互依赖性。 我们收集的文献中只有少数作品同时考虑多个数据属性或建立数据属性的相互依赖性。例如,Wang等人[164]和Rajput等人[125]指出,样本的数量和维度共同影响结果模型的性能。Sanyal等人[131]研究了标签噪声的可容忍量作为数据集密度的函数。这样的作品是非常有价值的,因为对抗鲁棒性确实是复合特性的结果。然而,同时优化多个属性并不总是可能的。未来的工作方向可能是研究不同数据属性之间的相关性,例如,特征降维方法对类别密度和分离的影响。
附加数据属性。 现有的关于数据对标准概化的影响的研究[92,93,130]指出了一些我们回顾的与稳健概化相关的论文中没有讨论的数据属性。其中包括 (i) 异常值的存在,即与数据集中大多数观察到的样本截然不同的样本,(ii)重叠样本,即具有相同特征表示的数据集的不同样本,以及(iii)小分离,即来自同一类的训练样本形成分散在整个输入空间的小的不联合簇(更多细节见第6节)。研究这些数据属性对模型对抗鲁棒性的影响可能是未来工作的另一个方向。
定量测量。 文献表明,对抗鲁棒性的下限/上限可以由基础数据的属性确定[14, 98]。修改数据的某些属性还可以改变生成的分类器的稳健性。因此,定量测量此类数据属性的能力非常有价值。然而,本次调查中讨论的一些数据属性,例如分布类型和标签噪声,缺乏任何可靠的估计技术。目前的工作主要依赖于非正式的比较分析,例如,MNIST 数据集比高斯混合数据更接近伯努利混合数据,因为像素集中于黑色或白色。定量测量分布之间的相似程度虽然很困难,但为了得出更准确的结论可能是必要的。
有趣的是,其他数据属性具有多种且通常不一致的测量技术,例如浓度 [98, 121, 186]、密度 [116, 144]、内在维度 [8, 93] 和类间距离 [14, 44, 122]。例如,类间距离可以计算为将样本从一个类移动到另一类所需的总距离[14, 122]。它也可以被计算为来自不同类的预定义部分样本之间的两两距离,例如,每个类的10%,彼此最接近[44]。虽然通过第一种方法得到的类间距离的计算成本更高,但第二种方法更容易受到离群值的影响,因为它只依赖于彼此接近的样本子集。此外,这些指标可能不一定相互关联。我们相信未来的研究可以为每一个被提议的指标的适当应用场景提供更多的见解。
增强数据和学习程序以提高鲁棒性的实用方法包括通过选择自然或生成的样本来增加数据集的大小和多样性。还可以更改底层数据表示,以优化某些属性,例如降低维数和更好的分离,或将数据投射到更理想的分布中。这可以通过统计和基于学习的技术来实现。选择适当的模型,以及配置模型以考虑底层数据属性,也被证明是有用的。最后,估计可实现的稳健性的技术可用于衡量针对特定数据集观察到的稳健性可以提高多少。
至于未来的研究方向,评估数据对图像以外领域(例如结构化文本、软件等)鲁棒性的影响可能很有价值。此外,探索评估、评价和利用现实数据集属性的方法,无论是独立使用还是与常用模型类型结合使用,都可能具有很大的实际意义。还缺乏对不同数据属性相互作用的研究:修改数据属性而不影响其他属性可能是不可行的。研究被证明有利于标准泛化的数据的其他属性,例如重叠和离群样本,也可以帮助更好地理解鲁棒泛化和准确性-鲁棒性权衡。最后,某些数据属性缺乏一致的指标也可能使经验测量不太可靠。
据我们所知,我们的调查是第一个明确关注逃避攻击下模型鲁棒性背景下的训练数据属性的调查。我们回顾了更广泛地关注逃避攻击的其他调查,同时在第 6.1 节中对数据进行了一些讨论。 6.2 节回顾了研究数据属性如何影响标准泛化的文献。最后,在第 6.3 节中,我们回顾了与规避攻击和防御相关的技术。我们的在线附录 [168] 讨论了研究逃避攻击的非数据相关原因以及非逃避攻击(例如中毒和后门)的其他工作。
许多现有的调查回顾了有关对抗攻击的文献。这些工作大多数并不专门关注数据的属性,而是讨论攻击和防御机制、对抗性漏洞的非数据相关原因以及不同的威胁模型。这些作品中只有少数提到了对抗性示例存在的与数据相关的原因[6,7,95,134]。具体来说,Serban等人[134]观察到,训练样本容量不足和数据维数高可能会导致对抗性脆弱性。同样,Machado等人[95]也提到,缺乏足够的训练数据、高维、高集中度是造成对抗脆弱性的原因。Akhtar等人[6,7]也提到了高维,以及其他非数据相关的原因,作为对抗例子的来源。
同时,Han等人[67]从模型、数据等角度研究了深度学习中对抗脆弱性的起源。作者提到高维度、高集中度分布、少量输出类别、数据不平衡以及图像频率的感知差异是对抗性示例的潜在来源。然而,由于 (a) 该调查的重点并不是特别关注数据相关的属性,(b) 其论文检索是在 2021 年进行的,© 它仅关注深度学习模型,我们的工作能够识别出50多篇关注其他类型模型的其他相关论文,例如,非参数和线性分类器,和/或讨论数据相关属性的其他类型,如分布类型、类密度、分离和标签质量。
总之,通过在我们的调查中明确关注数据属性对逃避攻击的影响,并包括之前工作中没有涉及的50多篇论文,我们能够确定该领域的其他相关属性、实用建议和未来的研究方向。
许多调查研究的是数据属性对标准而不是鲁棒泛化的影响。最早的研究之一可能是Raudys和Jain的工作[126],他们回顾了有关样本大小对二值分类器的影响的研究,表明有限的样本大小通常导致次优的泛化。Bansal等人[11]和Bayer等人[12]也调查了解决数据稀缺问题的论文。他们的结果表明,增强技术可以通过减少模型过度拟合的问题来帮助提高模型的泛化能力。
标签噪声是影响标准和鲁棒泛化的数据的另一个方面。关于这个主题的大多数工作都发现,噪声标签增加了对大量训练样本的需求,并可能导致不必要的复杂决策边界 [51, 143]。这些工作还表明,对抗性训练可以在存在标签噪声的情况下提高模型的清洁准确性。
Lorena等人[93]确定了26个定量指标,可用于评估在给定数据集上进行分类的难度。根据我们的调查,虽然其中一些指标(例如高维度和低类别分离)也在稳健泛化的背景下进行了研究,但其他指标(例如类别的模糊性及其分离边界的复杂性)尚未得到探索。
许多作者[68,92,130,172]关注不平衡学习问题。他们表明,一些数据属性,例如低密度、数据噪声、数据移位,以及最重要的类之间的数据重叠,使得从不平衡数据中进行学习变得更加复杂。同样,Moreno-Torres等人[105]研究数据偏移,表明它会对干净的准确性产生负面影响。
上述工作表明,我们调查中讨论的一些属性,例如样本数量、维数、密度和标签质量,也会影响精度。还有这些或我们的工作专门涵盖的其他数据属性,例如数据移位和数据分布。研究这些额外的属性,以及数据属性之间的相互作用以获得清晰和稳健的准确性,是一个有趣的研究方向,我们的工作可以促进这一方向。
许多工作重点关注生成对抗攻击的技术、针对这些攻击的对策以及定义攻击本身的概念。
攻击和防御。 一些著作[40,87,89,91,99,129,145,185]调查了对抗性攻击和防御,观察到新的攻击不断绕过防御,这导致提出新的防御,但又被再次打破(又名“猫和老鼠的竞赛”或“军备竞赛”)。他们还观察到,该领域研究的是特征级别的攻击/防御,这通过干扰现实生活中相应特征的可行性来限制所开发技术的实用性。
最近,研究人员开始研究新模型对对抗性攻击的敏感性。例如,一些研究[141,161,162,178]提出了针对当代模型的攻击技术,例如图神经网络、生成式预训练转换器(GPT)和视觉转换器。这些研究表明,即使在较新的模型中,对抗性示例仍然存在,其中一些是用大量数据进行训练的。由于所有这些工作都侧重于攻击和防御机制,而不是数据对对抗鲁棒性的影响,因此我们的工作扩展并补充了这项研究。
对抗性例子。 对抗性示例通常被定义为通过扰乱正确分类的样本而构建的输入,这种方式使人类无法察觉到变化。然而,由于“人类难以察觉”很难定义,现有的对抗性例子研究通过 Lp 范数测量的小扰动来近似不可察觉。一系列研究 [50,55,102,140] 调查了这一假设的有效性。这项工作表明,Lp 范数产生的扰动并不完全符合人类的感知,即,小 Lp 范数的一些变化对人类来说是显而易见的。此外,具有最小 Lp 扰动的对抗性示例可能比较高扰动的效果和可转移性较差 [17, 129]。因此,许多方法探索计算机视觉和 NLP 领域不可感知性的指标 [50,102,185]。Lp 规范的另一个问题是它们不能在图像以外的领域可靠地使用。例如,在软件/恶意软件的情况下,简单地生成具有 Lp 范数的对抗性示例可能会导致问题空间中不可能出现的特征表示 [119, 129]。虽然所有这些工作都关注对抗性示例的属性,但它们与我们调查的主题正交,因为我们更关注训练数据的属性如何影响对抗性示例的成功。
在这项调查中,我们系统地收集、分析和描述了讨论数据属性如何影响机器学习模型中的对抗鲁棒性的论文。通过分析来自机器学习、计算机视觉、计算语言学和安全领域顶级科学场所的 77 篇研究论文,我们确定了 7 个与领域无关的数据属性和 1 个与对抗鲁棒性相关的图像特定数据属性。
虽然我们确定的构建高质量数据的一些准则与训练准确模型的建议类似,但生成稳健的模型对数据的特征更敏感,并且需要更多的努力,例如更多的样本、更好的标签品质等。还有一些对于构建稳健模型很重要的其他数据属性,这些属性在非对抗性环境中没有广泛讨论,例如测量集中度。从某种意义上说,鲁棒泛化是标准泛化的更强形式。
我们确定了下一步可能采取的措施,以提高对数据如何影响模型的对抗稳健性的理解。这些包括研究数据不同属性之间的相互作用,考虑提高标准泛化对稳健模型泛化的附加属性的影响,为数据的不同方面设计定量指标,以及将研究及其实证评估扩展到图像领域之外。我们希望我们的调查能够帮助研究人员和机器学习从业者更好地理解对抗性漏洞,并激发进一步的研究来解决已发现的知识差距。