Kevin Eykholt, Ivan Evtimov, Earlence Fernandes, Bo Li, Amir Rahmati, Chaowei Xiao, Atul Prakash, Tadayoshi Kohno, and Dawn Song
目录
摘要
1、介绍
2、相关工作
3、实物的对抗样本
3.1物理世界的挑战
3.2 鲁棒的物理扰动
4、实验
4.1数据集和分类器
4.2试验设计
4.3 LISA-CNN的结果
4.4 GTSRB-CNN的结果
4.5 Inception-v3的结果
5、讨论
6、结论
最近研究表明,最先进的深层神经网络( DNNs )很容易受到对抗样本(adversarial examples)的影响,这是由于输入中增加了小幅度的扰动(perturbations)。鉴于新兴的物理系统在安全危急的情况下正使用 DNNs,对抗样本可能会误导这些系统并造成危险情况。因此,理解物理世界中的对抗样本是开发弹性学习算法的重要一步。我们提出了一种通用的攻击算法,Robust Physical Perturbations ( RP2 ),在不同的物理条件下产生鲁棒的视觉对抗扰动。通过道路标志分类的真实案例,在包括视角在内的各种环境条件下,使用RP2生成的对抗样本相对于物理世界中标准体系结构的道路标志分类器实现了高目标错误分类率。由于目前缺乏标准化的测试方法,我们提出了一种分为两个阶段的评估方法,用于由实验室测试和现场测试组成的强健的物理对抗样本。使用这种方法评估了对真实物体进行物理对抗性操控的效果。仅用黑白贴纸形式的扰动,攻击一个真实的停车标志,导致在实验室环境中获得的图像达100 %的错误分类,以及在移动车辆上为目标分类器获得的视频捕获帧(现场测试)中有84.8 %的错误分类。
深层神经网络( DNNs )已经在[ 11、14、36 ]的许多计算机视觉任务中取得了最新的、有时能与人类竞争的性能。基于这些成功,它们越来越多地被用作物理系统中控制流程的一部分,如汽车[ 8、17 ]、无人机[ 4、24 ]和机器人[ 40 ]。然而,最近的工作表明,DNNs容易受到[ 5、9、10、15、16、22、25、29、30、35 ]的敌对干扰。对DNNs (可视的)输入精心设计的改动可能会导致他们控制的系统以意想不到的和潜在危险的方式做出不当行为。
这一威胁最近引起了关注,计算机视觉领域的工作在理解对抗样本的空间方面取得了巨大进展,从数字领域(例如,通过修改与场景相对应的图像) [ 9、22、25、35]开始,最近过渡到了物理领域[ 1、2、13、32]。同样,我们的工作有助于理解当物体本身受到物理干扰时的对抗样本。选择路标分类作为目标领域有几个原因: ( 1 )路标图形相对简单,使得隐藏扰动变得困难。( 2 )路标存在于嘈杂的无约束环境中,其物理条件不断变化,例如摄像机的距离和角度,这意味着物理对抗扰动应该对不稳定的环境具有鲁棒性。( 3 )路标在交通安全中起着重要作用。( 4 )一个潜在的交通威胁是,攻击者可能无法控制自动驾驶系统,但能够修改车辆在现实世界中做出重要安全决策所依赖的物体(如路标)。
产生强有力的物理扰动的主要挑战是环境可变性。网络物理系统在嘈杂的物理环境中运行,这种环境会破坏使用目前仅用数字算法[ 19 ]产生的扰动。对于我们选择的应用领域,相机的距离和角度的变化可能性最大。此外,还存在其他实用性挑战:( 1 )数字世界中的扰动可能非常小,以至于照相机可能由于传感器缺陷而无法感知。( 2 )当前的算法会产生占据物体背景图像的扰动。使用背景修改创建健壮的攻击是极其困难的,因为一个真实的物体可以根据视角有不同的背景。( 3 )制造过程(例如印刷扰动)不完美。
鉴于上述挑战,我们设计了Robust Physical Perturbations ( RP2 ),它可以产生对视角相机的距离和角度变化鲁棒的扰动。RP2创建一个可见但不明显的扰动,只扰动对象(例如路标),而没有扰动对象的环境。为了产生稳健的扰动,该算法使用实验数据和合成变换、从模拟物理动力学(例如,变化的距离和角度)的分布中提取样本(图2 )。
使用所提出的算法,我们评估了扰动对物理对象的有效性,并表明对手可以使用低成本技术对对象进行物理修改,从而在距离和角度变化很大的情况下,在基于DNN的分类器中可靠地导致分类错误。例如,我们的攻击导致分类器将经过细微修改的物理停车标志分类为限速45标志。具体来说,我们的最终扰动形式是一组黑白贴纸,对手可以将这些贴纸贴在物理路标上(停车标志)。我们设计的扰动类似涂鸦,这是一种相对常见的破坏形式。如图1所示,在现实世界中经常会看到带有随机涂鸦或颜色变化的路标(左边的图像是城市中的真实路标)。如果这些随机模式是对抗性扰动(图1的右侧展示了扰动示例),它们可能会给自动驾驶系统带来严重后果,但不会引起操作员的怀疑。
鉴于缺乏评估物理攻击的标准方法,我们借鉴了物理科学的标准技术,并提出了两个阶段的实验设计: ( 1 )实验室测试,其中相机保持不同的距离/角度;( 2 )现场测试,我们在不受控制的情况下驾驶汽车向交叉路口行驶,模拟自动驾驶车辆。使用这个评估流程测试此攻击算法,发现扰动对各种距离和角度都是鲁棒的。
我们的贡献。图2展示了我们产生和评估强大的物理对抗扰动的流程概述。
为了显示此方法的通用性,我们通过操纵普通的物理物体,例如微波炉,来生成健壮的物理对抗样本。经过预先训练的Inception-v3分类器通过添加一个标签将微波炉误分类为“电话”。
因此,我们的工作有助于理解图像分类器对物理对象的鲁棒对抗性修改的敏感性。这些结果为通过视觉与物理世界互动的深度学习模式中的对抗样本的潜在后果提供了一个案例。我们这项工作的首要目标是为构建强健视觉模型的研究提供信息,并提高对未来物理学习系统可能面临的风险的认识。我们在网页“https://iotsecurity.eecs.umich.edu/#roadsigns”上提供了更多驾车测试的示例和视频。
我们对产生对抗样本的相关工作进行了调查。具体地说, 给定一个分类器 ,其参数为 ,输入为x和其对应的ground truth标签y, 生成一个对抗样本, 以便它在一定范围接近x,例如Lp 范数距离。 还会导致分类器做出错误的预测, 如对于特定的 有 (非目标攻击,untargeted attacks), 或 (目标攻击,targeted attacks)。我们还讨论了最近在理解物理对抗样本的空间方面所做的努力。
数字对抗样本 在白盒设置中提出了不同的方法来生成对抗性样本, 对手可以完全访问分类器 [3、5、9、13、23、29、35]。我们专注于白盒设置有两个原因:(1) 在我们所选择的自动驾驶车辆的领域中, 攻击者可以通过使用模型抽取攻击的方法对车辆系统进行逆向工程, 从而获得模型的逼近 [37]。(2) 为未来的防御打下基础, 我们必须评估强大对手的能力, 这可以在一个白盒中设置。鉴于最近的工作已经研究了黑盒数字对抗样本的可转移性(transferability) [27], 物理黑盒攻击也是可能的。
Goodfellow等人提出了快速梯度法,该法应用损失函数的一阶近似来构造对抗样本[ 9 ]。也提出了基于优化的方法来为目标攻击[ 5、18 ]创建对抗扰动。这些方法有助于理解数字对抗样本。相比之下,我们的工作检查在不同环境条件下真实物体上的物理扰动。
物理对抗样本 Kurakin等人表示当通过智能手机摄像头[ 13 ]观察时,印刷的对抗样本可能会被错误分类。Athalye和Sutskever改进了Kurakin等人的工作并提出了一种攻击算法,该算法产生对一组二维合成变换鲁棒的对抗样本[ 1 ]。这些工作不会修改物理对象——对手会在纸上打印出一幅数字扰动的图像。然而,当受到环境变化的影响时,研究这种攻击的有效性是有价值的。我们的目标受限的海报印刷攻击是这种类型攻击的翻版,附加的物理世界约束是将扰动限制在标志的表面区域。此外,我们的工作更进一步,研究如何通过在物体上贴标签来有效地创建物体本身受到物理干扰的对抗样本。
在我们工作的同时, Athalye等人改进了他们最初的攻击,并创建了扰动物体的3D打印复制品[ 2 ]。主要的差异包括: ( 1 ) Athalye等人在优化过程中只使用一组合成变换,这可能会错过细微的物理效果,而我们的工作样本来自一个对物理变换和合成变换都建模的分布。( 2 )我们的工作修改了现有的真实尺寸的物体。Athalye等人的3D打印是小规模复制品。( 3 )我们的工作模拟了适合手头用例的真实测试条件。
Sharif等人攻击人脸识别系统,在[ 32 ]眼镜的镜框上打印对抗性扰动。他们的工作表明了在相对稳定的物理条件下成功的物理攻击,在姿势、距离/角度以及照明方面几乎没有变化。这有助于对稳定环境中物理样本的有趣理解。然而,一般来说,环境条件会有很大的变化,并且会降低扰动的有效性。因此,我们选择了道路标志分类,有不受环境约束的特点。在我们的工作中,我们明确设计我们的扰动在不同的物理世界条件下是有效的(具体来说,大的距离/角度和分辨率变化)。
最后,Lu等人用路标图像的物理对抗样本对检测器进行了实验,显示当前的检测器不能攻击[ 19 ]。在本文工作中,我们重点关注分类器来展示物理攻击的有效性,并强调它们在现实世界中的安全漏洞。攻击检测器不在本文的讨论范围内,尽管最近的工作已经产生了针对检测/分割算法[ 6,20,38 ]的数字对抗样本,我们最近的工作已经扩展了RP2来攻击YOLO检测器[ 7 ]。
我们的目标是研究是否有可能为现实世界的物体创造强大的物理扰动,从而误导分类器做出不正确的预测,即使图像是在一系列不同的物理条件下拍摄的。我们首先分析了物理学习系统可能会遇到的环境条件,然后考虑到这些挑战时提出了我们的算法来生成物理对抗扰动。
对物体的物理攻击必须能够经受住不断变化的条件,并能有效地欺骗分类器。我们围绕道路标志分类选择的例子来构建我们对这些条件的讨论,这可能会应用于自动驾驶车辆和其他安全敏感领域。这些条件的子集也可以应用于其他类型的物理学习系统,如无人机和机器人。
环境条件 自动驾驶车辆中摄像机相对于路标的距离和角度连续变化。馈入分类器的最终图像以不同的距离和角度拍摄。因此,攻击者物理上添加到路标上的任何扰动都必须能够经受住图像的这些变换。其他环境因素包括有照明/天气条件的变化,以及摄像头或路标上有碎片等。
空间限制 当前关注于数字图像的算法增加了对图像所有部分的对抗性扰动,包括背景图像。然而,对于物理路标,攻击者不能操纵背景图像。此外,攻击者不能指望有固定的背景图像,因为背景会根据摄像机的距离和角度而变化。
不可见性(Imperceptibility)的物理限制 当前对抗性深度学习算法的一个吸引人的特点是,它们对数字图像的扰动通常很小,以至于普通观察者几乎察觉不到。然而,当将这种微小的扰动转移到现实世界时,我们必须确保相机能够感知到扰动。因此,难以察觉的扰动是有物理限制的,并且取决于传感硬件。
制造误差 为了制造计算的扰动,所有扰动值必须是可以在真实世界中再现的有效颜色。此外,即使制造设备(如打印机)能够产生某些颜色,也会有一些复制误差(reproduction error)[ 32 ]。
为了成功地对深度学习分类器进行物理攻击,攻击者应该考虑到上述类别的物理世界变化,这些变化会降低扰动的有效性。
从优化方法推导出我们的算法,该方法为单个图像x生成扰动,而不考虑其他物理条件;然后, 将介绍如何在考虑上述物理挑战的情况下更新算法。该单图像优化问题搜索要添加到输入x的扰动 ,这样扰动实例 是由目标分类器 错误分类的:
其中H是一个选择的距离函数, 是目标类。为了有效地解决上述约束优化问题,我们用拉格朗日松弛的形式重新表述,类似于之前的工作[ 5,18 ]。
这里 是损失函数, 衡量模型预测和目标标签 的差异。λ是一个超参数, 它控制失真的规则化。我们指定距离函数H为 , 表示 的lP范数。
接下来, 我们将讨论如何修改目标函数来解释环境条件。我们对包含对象o的图像在物理和数字变换 下的分布进行建模。从 中抽取不同的实例 。在 中的物理扰动会被加入到特定的物体o中。在路标分类的例子中, o是我们目标操纵的停车标志。给定在物理世界中拍摄的图像, 需要确保添加到o的扰动 可以在不同的物理条件下欺骗分类器。同时期的工作 [2]只应用了一系列转换函数来合成分布。然而, 模拟物理现象是复杂的, 这样的合成转化可能会错过物理效果。因此, 为了更好地捕捉到物理条件的变化, 我们通过生成即包含真实物理条件变量又包含合成变换的方法,从 取样实例 。对于道路标志的物理条件, 包括在不同条件下拍摄路标, 如改变距离、角度和光照。这种方法旨在更接近地拟合物理世界的变化。对于合成变体, 我们随机裁剪图像中的对象, 更改亮度, 并添加空间转换以模拟其他可能的条件。
为了确保扰动只应用于目标物体o的表面区域(考虑到不可感知性的空间限制和物理限制),我们引入了一个掩膜(mask)。该掩膜用于将计算出的扰动投影到物体表面(即路标)的物理区域。除了定位空间位置,掩膜还有助于生成对肉眼可见但容易被忽视的扰动。为了做到这一点,攻击者可以将掩膜塑造成涂鸦的样子——这是大多数人期待并忽略的街头常见的破坏行为,因此隐藏了“人类心理”中的干扰。形式上,扰动掩膜是一个矩阵 ,其尺寸与路标分类器的输入尺寸相同。 中没有添加扰动的区域中表示为0,在优化期间添加扰动的区域中表示为1。
在我们的实验过程中,我们根据经验观察到掩膜的位置对攻击的有效性有影响。因此,我们假设从分类的角度来看,物体具有强和弱的物理特征,并且我们放置掩膜来攻击弱区域。具体来说,我们使用以下顺序来发现掩膜位置: ( 1 )使用L1正则化和占据路标整个表面的掩膜来计算扰动。L1使得优化器倾向于稀疏扰动向量,因此将扰动集中在最易受攻击的区域。可视化产生的扰动提供了掩膜放置的位置。( 2 )使用L2重新计算扰动,掩膜位于从前面步骤中识别出的脆弱区域。
考虑到制造误差(fabrication error), 我们在目标函数中添加了一个辅助项来模拟打印机的颜色复制误差。这是基于Sharif[32]等人提出的印刷难度分数 (Non-Printability Score, NPS)。给定了一组可打印颜色 (RGB三元组)P 和在物理世界中需要打印的扰动中使用的(唯一)RGB三元组的集合R (),印刷难度分数是由以下公式给出:
基于以上讨论,我们最终的鲁棒空间约束扰动优化为:
这里,我们使用函数 来表示对齐函数(alignment function),该函数将对象上的变换映射到扰动上的变换(例如,如果对象旋转,扰动也旋转)。
最后,攻击者将把优化结果打印在纸上,裁剪出扰动部分( )并贴在目标对象o上。正如我们在下一节中的实验所证明的,这种扰动会从各种角度欺骗分类器。
本节,我们将根据经验评估所提出的RP2。首先评估一个安全敏感的例子,停车标志识别,以证明所提出的物理扰动的鲁棒性。为了证明我们方法的一般性,我们接着攻击Inception-v3,将微波炉误分类为电话。
如[ 28、31 ]所述,我们基于标准的裁剪-调整大小-然后分类(crop-resize-then-classifier)的顺序构建了两个分类器,用于路标分类。LISA-CNN使用了LISA,一个包含47种不同路标的美国交通标志数据集[ 21 ]。然而,由于数据集不平衡导致对不同路标的表现差异很大。为了缓解这个问题,我们根据训练实例的数量选择了17种最常见的路标。LISA-CNN的架构在Cleverhans库[ 26 ]中定义,由三个卷积层和一个FC层组成。它在测试集上的准确率为91 %。
我们的第二个分类器是GTSRB-CNN,它是在德国交通标志识别基准( GTSRB ) [ 33 ]上训练的。我们使用了一种公开可用的多尺度CNN架构的实现方式[ 39 ],众所周知,该架构在路标识别方面表现良好[ 31 ]。因为我们在物理实验中无法获到德国停车标志,所以我们用LISA中的美国停车标志图像替换了GTSRB的训练、验证和测试集中的德国停车标志。GTSRB-CNN在测试集上达到95.7 %的准确率。当在我们自己的181幅停车标志图像上评估GTSRB-CNN时,达到了99.4 %的准确率。
据我们所知,目前还没有评估物理对抗扰动的标准化方法。基于我们在第3.1节中的讨论,我们关注角度和距离,因为它们是用例中变化最大的元素。靠近路标的车辆中的照相机将定期拍摄一系列图像。这些图像将以不同的角度和距离拍摄,因此会改变所有给定图像中的细节量。任何成功的物理扰动都必须在一定距离和角度范围内引起有针对性的错误分类,因为在控制器发出动作之前,车辆可能会对视频中的一组帧(图像)进行投票。我们目前的实验没有明确地控制环境光,从实验数据(第4节)可以明显看出,照明从室内光照到室外光照各不相同。
借鉴物理科学的标准实践,我们的实验设计将上述物理因素封装成两个阶段的评估,包括受控的实验室测试和现场测试。
静态(实验室)测试 将物体的图像从固定的位置进行分类。
其中d和g表示图像的摄像机距离和角度,y是ground truth(真值), 是目标攻击类别。
注意,仅当具有相同相机距离和角度的原始图像c被正确分类时,导致错误分类的图像 才被认为是成功的攻击,这确保错误分类是由附加扰动而不是其他因素引起的。
开车(现场)测试 我们将相机放在移动平台上,以真实的行驶速度获取数据。实验中,使用智能手机摄像头安装在汽车上。
由于性能限制,自动驾驶车辆可能不会对每一帧进行分类,而是会对第j帧进行分类,然后进行简单多数投票。因此,一个悬而未决的问题是帧( j )的选择是否影响攻击精度。实验中,我们使用j = 10。还尝试了j = 15,但没有观察到攻击成功率有任何显著变化。如果这两种类型的测试都有很高的成功率,那么这种攻击很可能在汽车常见的状况下成功。
我们通过在LISA-CNN上生成三种类型的对抗样本来评估该算法的有效性(测试集的准确率为91% )。对于所有类型,我们观察到高攻击成功率和高置信度。表1总结了静止攻击图像的采样。在所有测试条件下,无干扰路标基线达到了100 %的真实分类率。
对象受限的海报打印攻击 包括再现Kurakin等人[ 13 ]的攻击。关键的区别在于,在我们的攻击中,扰动局限在除了背景之外的路标表面区域,并且对较大的角度和距离变化具有鲁棒性。根据我们的评估方法,在所拍摄图像中,停车标志100 %被错误地归类为攻击目标限速45。预测操纵路标作为目标类别的平均置信度为80.51 % (表2第二列)。
对于右转弯警告标志, 我们选择一个掩膜(mask)只覆盖箭头, 因为我们打算产生细微的扰动。为了实现这一目标, 我们增加了方程 (3) 中的正则化参数λ以证明小幅度扰动。表4总结了我们的攻击结果--达到了73.33%的目标攻击成功率 (表1)。在15个距离/角度配置中, 四个实例未归类到目标中。然而, 他们仍然错误分类到其他不是真正标签的类别(让道, 增加车道)。这四个实例中有三个是附加车道标志——一种不同类型的警告。我们假设, 鉴于警告标志的相似外观, 小扰动足以混淆分类器。
贴纸攻击 接下来,我们展示了通过将修改限制在类似涂鸦或艺术的区域,以贴纸的形式产生物理扰动是多么有效。表1的第四和第五列显示了图像样本,表2 (第四和第六列)显示了置信度的详细成功率。在静止环境中,涂鸦贴纸攻击的目标攻击成功率为66.67 %,贴纸迷彩艺术攻击的目标攻击成功率为100 %。一些区域不匹配可能会导致爱恨涂鸦的性能下降。(Some region mismatches may lead to the lower performance of the LOVE-HATE graffiti.)
驾车测试 根据我们的评估方法,对停车标志的扰动进行驾车测试。在我们的基线测试中,我们记录了来自移动车辆的两个连续干净的停车标志视频,在k = 10时抓取帧,并裁剪标志。我们观察到停车标志在所有帧中被正确分类。我们同样用k = 10测试了LISA-CNN细微和抽象的艺术扰动。我们的攻击在隐蔽海报攻击中达到100 %的目标攻击成功率,在伪装抽象艺术攻击中达到84.8 %的目标攻击成功率。有关驾车视频的示例帧见表3。
为了显示该攻击算法的多样性,我们为GTSRB-CNN创建并测试攻击(测试集的准确率为95.7 % )。基于我们伪装艺术攻击的高成功率,我们创造了类似的抽象艺术贴纸扰动。表1的最后一列显示了实验图像的子集。表5总结了攻击结果——攻击欺骗了分类器,使其相信在80 %的静态测试条件下,停车标志分类为限速80标志。根据我们的评估方法,还进行了一次驾车测试( k = 10,连续两次录像)。攻击在87.5 %的时间里欺骗了分类器。
为了证明RP2的一般性,我们使用两种不同的物体,一个微波炉和一个咖啡杯,计算了标准Inception-v3分类器[ 12、34 ]的物理扰动。我们选择了贴纸攻击,因为海报印刷在一个全新的物体表面可能会引起怀疑。请注意,对于这两次攻击,我们都缩小了距离范围,因为与路标相比,杯子和微波炉的尺寸更小(例如咖啡杯高度为11.2厘米,微波炉高度为 24厘米,右转路标高度为45厘米,停车路标为76厘米)。表6总结了我们对微波炉的攻击结果,表7总结了我们对咖啡杯的攻击结果。对于微波炉,目标攻击成功率为90 %。对于咖啡杯,目标攻击成功率为71.4 %,非目标攻击成功率为100 %。微波炉和杯子的对抗性标签的示例图像见表8和表9。
黑盒攻击 给定对目标分类器的网络结构和模型权重的访问权限,RP2可以产生各种鲁棒的物理扰动来欺骗分类器。通过研究像RP2这样的白盒攻击,我们可以使用最强的攻击者模型分析成功攻击的需求,并更好地为未来的防御提供信息。在黑盒环境中评估RP2是一个悬而未决的问题。
图像裁剪和攻击检测器 在评估RP2时,我们每次分类前手动裁剪每个图像。这样做是为了使对抗性图像与提供给RP2的干净路标图像相匹配。随后,我们使用一种伪随机裁剪来评估伪装艺术攻击,,并保证至少大部分路标在图像中。针对LISA-CNN,我们观察到平均目标攻击率为70%,非目标攻击率为90%。针对GTSRB-CNN,我们观察到平均目标攻击率为60%,非目标攻击率为100%。提出了非目标攻击成功率,是因为导致分类器不输出正确的交通标志标签仍然是一个安全风险。虽然图像裁剪对目标攻击成功率有一定影响,但我们最近的工作表明,改进的RP2版本可以成功攻击目标检测器,而[ 7 ]不需要裁剪。
我们引入了一种算法( RP2 ),该算法产生鲁棒的、物理上可实现的对抗性扰动。使用RP2和由实验室和开车经过测试组成的两个阶段实验设计,有助于理解物体本身受到物理扰动时的物理对抗样本的空间。我们的目标是路标分类,因为它在安全方面很重要,而且路标环境自然嘈杂。工作表明,有可能生成对广泛变化的距离/角度鲁棒的物理对抗样本。这意味着未来的防御不应该依靠物理噪声源来抵御物理对抗样本。