【论文翻译】Physical Adversarial Examples for Object Detectors

针对物体检测器的物理对抗样本

Physical Adversarial Examples for Object Detectors

Kevin Eykholt, Ivan Evtimov, Earlence Fernandes, Bo Li, Amir Rahmati, Florian Tramer, Atul Prakash1, Tadayoshi Kohno, Dawn Song

目录

摘 要

1、介绍

2、相关工作

3、物体检测器的背景

4、物体检测器的物理对抗样本

4.1 RP2算法

4.2扩展对物体检测器的RP2

4.2.1修正的对抗性损失函数

4.2.2新物理约束的综合表示

4.2.3使用总变化进行噪声平滑(Noise Smoothing using Total Variation)

5、评价

5.1实验设置

5.2实验结果

6、讨论

7、结论


摘 要

深度神经网络( DNNs )容易受对抗样本攻击——恶意修改的输入导致DNNs做出不正确的预测。最近工作表明,这些攻击扩展到了物理领域,在各种真实世界条件下对物体产生扰动,欺骗图像分类器。这种攻击对安全要求高的网络物理系统中使用的深度学习模型构成了威胁。

本文中,我们将物理攻击扩展到更具挑战性的物体检测模型,它是一类广泛用于检测和标记场景中多个对象的深度学习算法。我们从以前对图像分类器的物理攻击上进行改进,创建了带有扰动的物体,它被物体检测模型忽略或错误标记。我们进行了消失攻击(Disappearance Attack),导致检测器认为停车路标“消失”了——用对抗性停车路标的海报贴在该路标,或者在路标上添加对抗性标签。在受控实验室环境录制的视频中,最先进的YOLO v2检测器无法识别85 %以上视频帧中的对抗性停车路标。在室外实验中,YOLO在72.5 %的视频帧和63.5 %的视频帧中各自被海报和贴纸攻击欺骗。我们还使用了其他物体检测模型Faster R-CNN,来证明对抗性扰动的可传递性(transferability)。在受控实验室环境中,85.9 %的视频帧和40.2 %的室外环境中,所创建的海报扰动能够欺骗Faster R-CNN。最后,用一种新的创造攻击(Creation Attack)展示了初步结果,用无害的(innocuous)物理标签欺骗模型去检测不存在的物体

1、介绍

深度神经网络( DNNs )广泛应用于计算机视觉、自然语言和机器人技术,尤其是安全要求高的任务,如自动驾驶[ 9 ]。与此同时,DNNs已经被证明易受对抗样本[ 3、6、7、14、17 ]的攻击,这些恶意扰动的输入导致DNNs产生不正确的预测。这些攻击给在安全和安保要求高的决策中使用深度学习带来了风险。例如,攻击者可以在停车路标上添加人类可能忽略的扰动,并导致嵌入在自动驾驶车辆中的DNN错误分类或忽略该路标。

早期的作品只研究数字空间中的对抗样本。然而,最近已经表明,也有可能在各种物理条件(例如,物体距离、姿态、照明等)下产生扰动[ 1、2、4、8、20 ]。这些工作集中于攻击分类网络,即对静态输入图像产生单一预测的模型。在本文工作中,我们开始探索物体检测网络的物理对抗样本,检测器是一种更丰富的深度学习算法,可以检测和标记场景中的多个物体。物体检测网络是一种流行的工具,用于实时和动态识别周围物体,自动驾驶是一种典型的应用。众所周知,物体检测器易受数字攻击,但它们易受物理攻击仍是一个悬而未决的问题。

与分类器相比,物体检测网络更难攻击: 1 )检测器处理整个场景,而不是单个局部对象。这允许检测器使用上下文信息(例如,场景中物体的方位和相对位置)来生成预测。2 )检测器不限于产生单个预测。相反,它们通常通过组合场景中物体位置和这些物体标签来标记场景中的每个识别对象。对物体检测器的攻击需要考虑两种类型的预测(对象的存在/不存在以及对象的性质nature of object),而对分类器的攻击只关注修改单个(可能存在的)对象的标签。

为了对目标检测器创建概念验证(proof-of-concept)攻击,我们从Eykholt等人现有的鲁棒物理扰动( RP2 )算法[ 4 ]开始,其最初是为了对图像分类器产生健壮的物理攻击。Eykholt等人的方法 (和其他人的[ 1,8 ] )是从模拟对象的物理扰动(例如,视角和距离)的分布中采样,并找到一个扰动,该扰动最大化了该分布下的误分类概率。我们发现他们工作中考虑的物理扰动不足以扩展到物体检测器。

实际上,当使用图像分类器时,先前的工作认为目标对象占据了图像的很大一部分,并且其在图像中的相对位置变化很小。然而,当在诸如驾驶汽车的动态环境中执行物体检测时,场景中多个对象的相对大小和位置可能会发生剧烈变化。这些变化产生了额外的限制,必须考虑这些限制才能产生成功的鲁棒物理攻击。例如,许多物体检测器将场景分成网格或使用滑动窗口来识别感兴趣区域,并为每个感兴趣区域产生单独的物体预测。随着对象相对位置的变化,对象所在的网格单元(以及相应的网络权重)也会发生变化。因此,鲁棒扰动必须同时适用于多个网格单元。我们表明,通过扩展Eykholt等人认为的输入分布来考虑场景中对象的额外合成转换(例如,视角、大小和位置的变化),可以获得对这些物理修改的鲁棒性。

跟随Eykholt等人,我们考虑对停车路标的检测和分类的物理对抗攻击,这是成功攻击的安全隐患的一个例证。这种扰动虽然大到足以被人眼看到,但却被限制为类似于手工涂鸦或细微的照明假象,可以被认为是良性的。我们针对目标检测器考虑非目标攻击,称之为消失攻击。在消失攻击中,我们制作了一张对抗性海报或者贴在停车路标上的物理标签(见图2 ),使得物体检测器在不同场景中的物体以不同的距离、位置和视角忽略该路标。这种攻击类似于Eykholt等人考虑的攻击,但目标是更丰富的深层神经网络。

我们还引入了一种新的创造攻击,人类会忽略的不起眼的物理标签会被物体检测器识别为本身不存在的停车标志。这种攻击不同于以前试图欺骗网络将一个对象错误分类为另一个对象的攻击,因为它创建了全新的对象分类。具体来说,我们尝试制作对抗性贴纸(类似于[ 2 ]中考虑的贴纸)。这种贴纸可以用来在路标检测器上发动拒绝服务攻击。

在我们的实验中,我们的目标是最先进的YOLO v2 ( You Only Look Once )物体检测器[ 16 ]。YOLO v2是一个深度卷积神经网络,对80个对象类执行实时对象检测。我们的室内(实验室)和室外实验表明,在距离目标物体30英尺的范围内,利用海报和贴纸扰动,检测器可能会被欺骗而无法感知攻击者的目标物体。

我们的贡献:

  1. 我们扩展Eykholt等人的RP2算法给目标检测网络提供概念验证攻击,目标检测器是比图像分类器更丰富的DNNs。
  2. 使用我们新的改进算法,提出了一种新的对物体检测网络的物理攻击:消失攻击,这种攻击导致检测器忽略物体。
  3. 我们在室内和室外环境中评估对YOLO v2物体检测器的攻击。结果显示,对抗性海报干扰在室内实验室环境中录制的85.6 %的视频帧和在室外环境中录制的72.5 %的视频帧中欺骗了YOLO v2。我们的对抗性贴纸在实验室环境中录制的85 %的视频帧,在室外环境中的63.5 %的视频帧欺骗了YOLO v2。
  4. 我们在实验室和室外环境中使用Faster R-CNN目标检测器评估攻击的可转移性。结果显示,在实验室环境中录制的85.9 %的视频帧和室外环境中录制的40.2 %的视频帧中攻击欺骗了Faster R-CNN。
  5. 我们提出并试验了一种新型创造攻击,旨在欺骗检测器将对抗性贴纸识别为不存在的物体。对这种攻击类型的结果是浅显初级的,但令人鼓舞。

我们的工作证明了物理扰动对物体检测器是有效的,并留下了一些未来的问题: 1 )延展到其他物理环境(例如,移动车辆,甚至真正的自动驾驶车辆)。2 )进一步探索其他类型的攻击:我们的工作介绍了使用海报或贴纸的消失攻击和创造攻击,但也有其他看似可信的攻击类型(例如,制造人类无法识别但被DNNs识别的物体)。3 )对分段网络的物理攻击。我们设想,未来的工作将建立在这提出的基础上,并将创建跨物理环境(例如,真正的自动驾驶车辆)和跨类别的物体检测网络(例如,语义分段[ 22 ])的攻击。

2、相关工作

Szegedy等人首先介绍了深度学习的对抗样本[ 21 ]。自从他们的开创性工作以来,已经有几项工作提出了更有效的算法来生成对抗样本[ 3,6,12,14 ]。所有这些工作都假设攻击者对输入具有“数字级”访问权限,例如,攻击者可以对分类器的输入图像进行任意像素级的修改。对于深度学习在网络物理系统中的应用(如自动驾驶车辆),这些攻击因此隐含地假设对手控制DNN的输入系统(例如,相机)。更强、更现实的威胁模型将假设攻击者仅控制物理层,例如系统与之交互的环境或对象,而不控制系统的内部传感器和数据管道。

Kurakin等人首先探索了这种更强的威胁模型。他们[ 8 ]通过在纸上打印数字对抗样本来生成物理对抗样本。在他们的工作中,发现很大一部分打印的对抗样本欺骗了图像分类器。然而,他们的实验是在物理条件没有任何变化的情况下进行的,比如不同的视角或距离。

Athalye等人通过创造对视角变化鲁棒的对抗性物体[ 1 ] 改进了Kurakin等人的工作。为了解释这种变化,他们在产生对抗性扰动时综合模拟了小规模的变化。他们展示了几个欺骗目标分类器的对抗性对象的例子,但是不清楚他们的攻击能够抵抗多少次变换。在他们的论文中,指出他们的算法对旋转、平移和噪声是鲁棒的,并认为只要变换可以被综合建模,他们的算法是鲁棒的。

Eykholt等人还提出了一种能够生成物理对抗样本[ 4 ]的攻击算法。不同Athalye等人的是他们选择对图像变换进行合成和物理建模。某些图像变换(如视角和距离的变化)会被捕获到受害者数据集(victim dataset)中。当生成对抗样本时,他们综合应用其他图像变换,例如照明。他们的工作表明,仅仅依靠合成转换可能会错过物理环境中的微妙(细微)之处,从而导致攻击不那么稳健。与以往所有关注分类器的工作不同,我们的工作侧重于更广泛的物体检测模型类别。具体来说,我们使用合成变换(视角、位置、比例scale)攻击目标检测模型,扩展了Eykholt等人的算法。

Lu等人使用YOLO物体检测器[ 11 ]打印在纸上的对抗性路标进行实验。他们的研究结果表明,用物理对抗样本来欺骗YOLO是很有挑战性的。我们的工作解决了这些挑战,并表明现有算法可以适应在高度变化的环境条件下对目标检测器产生物理攻击。

3、物体检测器的背景

物体分类是计算机视觉中的一项标准任务。给定输入图像和一组分类标签,分类算法输出图像的最可能的标签(或所有标签上的概率分布)。物体分类器仅限于对每个图像中的单个物体进行分类。如果图像包含多个物体,分类器仅输出场景中最主要物体的类别。相反,物体检测器在给定场景中定位和分类多个物体。

第一个提出用于物体检测的深层神经网络是Overfeat(Integrated recognition, localization and detection using convolutional networks) [ 18 ],它结合了滑动窗口算法和卷积神经网络。最近的提议是,具有卷积神经网络( R-CNN )的区域使用搜索算法来生成区域建议,并且使用CNN来标记每个区域。R-CNN的缺点是区域建议算法太慢,无法实时运行。随后的Fast R-CNN [ 5 ]和Faster R-CNN [ 19 ]用更高效的CNN取代了这种低效的算法。

上述算法将物体检测视为两个阶段考虑,由区域建议和每个区域的分类组成。相反,所谓的“单镜头检测器single shot detectors”,如YOLO [ 15 ](以及随后的YOLO v2 [ 16 ] )或SSD [ 10 ]在输入图像上运行单个CNN,以联合产生物体定位和分类的置信度得分。因此,这些网络在处理图像时可以达到同样的精度,而且速度要快得多。在这项工作中,我们重点关注YOLO v2,这是一款具有实时检测能力和高精度的最先进的物体检测器。

图1阐述了YOLO v2的分类方法。一个CNN在完整的输入图像上运行,预测361个独立网格单元(在原始图像上划成19×19方格)的物体位置(边界框)和标签置信度。对于每个单元格,YOLO v2对5个不同的边界框进行预测。对于每个边界框,预测包含边界框置信度(这个边界框包含一个物体的概率)、它的位置以及每个边界框的类标签概率。如果边界框置信度和最有可能类别的概率的乘积低于某个阈值(在我们的实验中,这个阈值被设置为0.1 ),边界框就会被丢弃。最后,在后处理阶段应用非最大值抑制算法来丢弃高度重叠[ 16 ]的冗余边界框。

【论文翻译】Physical Adversarial Examples for Object Detectors_第1张图片 图1:对于每个输入的场景,YOLO v2 CNN输出一个19*19*425的张量(tensor)。为生成这个tensor,YOLO将输入图像划分为S2 个(S=19)的方格。对于每个网格单元,有B个(B=5)边界框(bouding box)。每个边界框预测5个值:单元格中物体的概率可能、边界框的坐标(x,y,宽,高)。另外,对于每个边界框,模型预测所有80个输出类的概率分布。

这种物体检测流程引入了一些关于物理对抗样本的新挑战:首先,与总是假设物体存在并且攻击只需要修改类概率的分类不同,对检测器网络的攻击需要控制输入场景的所有网格单元中所有边界框的框置信度和类概率的组合。其次,分类器假设感兴趣的物体在输入图像中居中,而检测器可以在场景中的任意位置找到物体。最后,检测器输入中物体的大小不是固定的。在分类中,图像通常被裁剪和调整大小,以聚焦于被分类的对象。物体检测器旨在可靠地检测场景中多尺度、距离和角度的物体。

这些挑战主要源于物体检测器比标准图像分类器更加灵活和广泛适用。因此,尽管攻击难度较大,但物体检测器也比图像分类器代表着更有趣的攻击目标,因为它们额外的灵活性使得它们更适合用于可靠的网络物理系统。

4、物体检测器的物理对抗样本

我们将首先总结原始的RP2算法,然后讨论修改该算法以适应攻击目标检测器。

4.1 RP2算法

Eykholt等人提出的RP2算法优化了以下目标函数:

argminδλMx∙δp+NPSMx∙δ+Exi~XVJ(fθxi+TiMx∙δ,y*)           (1)

目标函数的第一项是被Mx 掩盖的扰动δlP 范数(具有缩放系数λ)。掩膜负责在空间上将扰动δ约束到目标物体的表面。例如,在图2中,掩膜形状是符号上的两个水平矩阵。

【论文翻译】Physical Adversarial Examples for Object Detectors_第2张图片 图2:一个在合成背景上叠加的对抗性扰动的例子。打印图像中的停车路标时, 其大小与美国停车路标相同。然后剪掉两个矩形条, 并使用原始打印作为模具, 将切口放置在真实的停车路标上。

目标函数的第二项测量对抗性扰动的可打印性。Eykholt等人从之前的著作[ 20 ]中借用了这个术语。扰动的可打印性受到两个因素的影响。首先,计算出的扰动必须是能再现的颜色。现代打印机的色域有限,因此某些数字显示的颜色可能无法打印。其次,打印机可能无法如实再现数字显示的颜色(见图3 )。

【论文翻译】Physical Adversarial Examples for Object Detectors_第3张图片 图 3: (a)是在数字存储时显示的图像。(b)是将图像(a)打印和拍摄的结果。

目标函数的最后一项是损失函数值,J·,·XV 采样的所有图像上取平均值。实际上,这是一组受害者图像。受害者数据集由在各种物理条件下拍摄的物体的多个图像组成,例如视角、观看距离和照明的变化。Ti 是“对齐函数”,它应用数字变换模拟受害者物体xi 的物理条件。例如,如果受害对象xi 是“标准”目标对象的旋转版本,那么扰动M 也应该适当旋转。因此,为了模拟受扰物体的物理一致性,我们将对齐函数Ti 应用于扰动。fθ· 是分类器网络的输出,y* 是对抗目标类。

4.2扩展对物体检测器的RP2

我们修改后的RP2版本与Eykholt等人提出的原始算法有三个关键区别。首先,由于分类器和目标检测器的输出行为不同,我们修改了对抗性损失函数。其次,我们观察到了额外的约束,即对抗性扰动必须对这些约束具有鲁棒性,并对这些约束进行综合建模。最后,我们在目标中引入平滑约束(smoothness constraint),而不是使用lP 范数。下面,我们将详细讨论这些变化。

4.2.1修正的对抗性损失函数

物体检测器输出一组边界框,以及给定某个置信度阈值的情况下该框中最可能包含的对象的可能性。有关此输出的可视化,请参见图1。相比之下,分类器输出单个向量,其中每个条目代表图像中物体是该类型的概率。对图像分类器的攻击通常利用这个输出向量和对抗性目标的one-hot表示之间的交叉熵损失。然而,这种损失函数不适用于物体检测器,因为它们具有更丰富的输出结构。因此,我们引入了一种新的适用于检测器的对抗性损失函数。这个损失函数是针对这项工作引入的特定攻击。

消失攻击损失。攻击者的目的是防止目标检测器检测到目标对象。为了实现这一点,对抗性干扰必须确保目标物体在任何边界框中的可能性小于检测阈值( YOLO v2的默认值为25 % )。在实施攻击时,我们使用了以下损失函数:

Jdx,y=maxs∈S2,b∈BPs,b,y,fθx                      (2)

其中fθx 表示物体检测器的输出(对于YOLO v2是一个19×19×425张量)。P· 是一个函数,它从这个张量中提取在网格单元s和边界框b中的标签y (本文是停车路标)的对象类的概率。将x表示为包含扰动目标对象的输入场景。

因此,如果停车路标出现在场景中,损失函数输出停车路标的最大概率。使用这个损失函数,对手的目标是直接最小化该概率,直到它低于网络的检测阈值 。

创造攻击损失。我们提出了一种新型的创造攻击,目的是欺骗模型识别不存在的物体。类似于[ 2 ]中的“对抗性补丁(adversarial patch)”,我们的目标是创建一个可以添加到任何现有场景中的物理标签。与以前的工作相反,我们的目标是在以前不存在的地方创建一个新的分类(一个新的物体检测),而不是单纯导致分类错误。

为此,我们使用了一个复合损失函数,首先是创建一个新的对象定位,然后是一个有针对性的“错误分类”。随机采样掩膜Mx 以便将对抗性补丁应用于场景中的任意位置。如上所述,fθx 表示输入场景x上YOLO v2的全部输出张量,Ps,b,y,fθx 表示网格单元s的框by类的概率。另外Pboxs,b,fθx 表示边界框的概率,即框包含任何物体的模型置信度。损失是:

object=Pboxs,b,fθx>τ                                                      (3)
JCx,y=object+1-objectPs,b,y,fθx

这里,τ 是边界框置信度的阈值(我们的实验中设置为0.2 ),在停止优化框置信度之后,专注于增加目标类的概率。由于我们的YOLO v2实现在框置信度和类概率的乘积上使用了0.1的阈值,所以任何框置信度高于0.2且目标类概率高于50 %的边界框都会被保留下来。

4.2.2新物理约束的综合表示

相比欺骗分类器,检测器生成物理对抗样本需要模拟更大的一组变化物理条件。在初始实验中,我们观察到,如果物体从图像中的原始位置移动,产生的扰动将会失败。这可能是因为检测器在生成预测时可以访问更多的上下文信息。由于一个物体的位置和大小会因观察者的位置而有很大的不同,扰动必须考虑到这些额外的约束。

为了产生位置不变的物理对抗扰动,我们选择了综合模拟两种环境条件:物体旋转(在Z平面)和位置(在X-Y平面)。在优化的每个阶段,我们随机放置和旋转物体。我们的方法不同于Eykholt等人使用的原始方法。因为他们使用一组多样的数据集(a diverse dataset)对物体的旋转进行物理建模。我们避免了这种方法,因为对齐函数Ti 在路标上正确定位对抗扰动增加了复杂性。由于这些转换是综合完成的,对齐函数Ti 只需要使用相同的过程来转换对抗性扰动。

4.2.3使用总变化进行噪声平滑(Noise Smoothing using Total Variation

未修改的RP2算法使用lP 范数来平滑扰动。然而,在最初的实验中,我们观察到,lP 范数导致非常像素化的扰动。像素化损害了攻击的成功率,尤其是当观众和物体之间的距离增加时。我们发现用总变异范数代替lP 范数给出了更平滑的扰动,从而增加了攻击的有效范围。给定掩码Mx 和噪声δ ,对抗性扰动的总变化范数Mxδ 为:

TVMxδ=i,jMxδi+1,j-Mxδi,j+Mxδi,j+1-Mxδi,j           (4)

其中i,j 是对抗性扰动的行和列索引。因此,我们最终修改的目标函数是:

argminδλTVMx∙δ+NPS+Exi~XVJd(fθxi+TiMx∙δ,y*)                    (5)

其中Jd(·,y*) 是损失函数(前面讨论过),用于测量图像中包含标签为y* 的物体的最大概率。在我们的攻击中,y* 是一个停车路标。

5、评价

首先讨论我们的实验方法,其中我们使用YOLO v2以白盒方式评估攻击,使用RCNN以黑盒方式评估攻击。然后,讨论了我们的结果,显示出最先进的物体检测器可以用物理海报和贴纸攻击。图4显示了用于消失攻击的海报和贴纸的数字版本,而图5显示了用于创造攻击的贴纸的数字版本。

【论文翻译】Physical Adversarial Examples for Object Detectors_第4张图片 图4:扩展的RP2算法使用海报和贴纸攻击YOLO v2的输出。
【论文翻译】Physical Adversarial Examples for Object Detectors_第5张图片 图5:创造攻击创建的修补程序, 旨在欺骗YOLO v2 检测不存在的停车路标。

5.1实验设置

我们在实验室和室外环境中评估了消失攻击。为海报和贴纸攻击产生对抗性干扰,并录制了几秒钟的视频。在每一项实验中,记录从离路标30英尺处开始,当路标的任何部分都不在摄像机视野内时结束。然后,我们将视频输入目标检测网络进行分析。我们使用YOLO v2物体检测器作为白盒攻击。还通过Faster-RCNN网络运行同样的视频来测量攻击的黑盒可传输性。

对于创造攻击,我们尝试在大型平面物体(如墙壁或橱柜)上贴标签,并在标签10英尺内录制视频。

5.2实验结果

我们用两种不同的掩膜评估了消失攻击的扰动,并攻击了一个停车路标。首先,我们测试了一个海报扰动,它使用了一个八角形的掩膜,允许在停车路标表面的任何地方加入对抗噪声。接下来,我们测试了贴纸扰动。我们用掩膜制作了两个矩形贴纸,分别贴在路标顶部和底部。攻击结果见表1。

【论文翻译】Physical Adversarial Examples for Object Detectors_第6张图片 表1:YOLO v2 消失攻击的攻击成功率。我们测试了海报扰动(大小相同的打印贴在一个真实的停车路标)和贴纸攻击(扰动是两个矩形粘在路标的表面)。表格单元格显示比率:未检测到停车路标的帧数/帧总数和成功率, 这是此比率的结果。

在环境相对稳定的室内实验室环境中,海报和贴纸扰动显示出高成功率,其中至少85 %的视频帧不包含停车路标的边界框。当我们在室外环境中评估扰动时,我们注意到两次攻击的成功率都下降了。贴纸扰动似乎也稍弱一些。我们注意到,当只有一部分路标在摄像机的视野中时,贴纸的扰动尤其糟糕。也就是说,当贴纸扰动开始离开相机的视野时,停车路标边界框出现得非常频繁。相反,在海报扰动实验中没有观察到这种行为,可能是因为掩膜的形状,视频中总会出现一些对抗噪声。图7显示了我们对抗性停车路标视频的一些捕获帧。

【论文翻译】Physical Adversarial Examples for Object Detectors_第7张图片 图 7:YOLO v2 处理后, 我们的攻击视频中的示例帧。在大多数帧中, 检测器无法识别停车路标。

 

为了测量攻击的可传输性,我们还使用Faster R-CNN目标检测网络对录制的视频进行了评估。这些实验的结果显示在表2中。

【论文翻译】Physical Adversarial Examples for Object Detectors_第8张图片 表 2:Faster R-CNN消失攻击的攻击成功率。我们测试了海报扰动(整个停车路标被替换为大小相同的打印)和贴纸攻击(扰动是两个矩形粘在路标的表面)。表格单元格显示比率: 未检测到停车路标的帧数/帧总数和成功率, 这是此比率的结果。

我们从这些结果中看到,在环境条件稳定的室内实验室环境中,这两种扰动都以相对较高的成功率转移。然而,一旦在户外,这两种扰动的成功率会显著降低,但这两种扰动都会保持适度的成功率。我们观察到,改进的攻击算法会产生对抗性海报扰动,这种扰动会转移到其他目标检测框架,尤其是在稳定的环境中。

最后,我们报告了创造攻击的一些初步结果(这些结果是初步的,因为与消失攻击相比,我们在优化这些攻击上的时间要少得多——因此它们很可能会进一步改进)。当将图5中的贴纸复制到橱柜和办公室墙上时,YOLO v2在多个独立视频中检测到25 %–79 %的帧中有停车路标。图6显示了一个视频帧示例。与消失攻击相比,创造攻击对视频中贴纸的尺寸、周围环境和相机移动更加敏感。这导致成功率变化很大,大概是因为(由于资源限制)我们在产生攻击时应用了较少的物理和数字转换。增强我们创作攻击的可靠性和健壮性是未来工作的一条有趣的途径,因为它为对抗样本提供了一种新的攻击媒介(例如DOS风格的攻击)。

【论文翻译】Physical Adversarial Examples for Object Detectors_第9张图片 图 6:YOLO v2 处理后,创造攻击视频中的示例帧。现场包括4个对抗性贴纸被可靠地识别为停车路标。

6、讨论

在为物体检测器生成物理对抗样本的过程中,我们注意到了一些有待未来研究的开放性问题。

由于环境条件而缺少细节。  我们注意到物理条件(例如光线差、距离远、角度陡),只允许清晰地观察到路标的宏观特征(即形状、一般颜色、字体)。这种丢失扰动细节的情况导致了扰动失败。这是预料之中的,因为我们的攻击依赖于摄像机能够稍微准确地感知到对抗扰动。当极端的环境条件使摄像机无法观察到路标上扰动细节时,对抗性噪声就消失了。我们的理论是,为了在这些极端条件下成功欺骗目标检测器,需要攻击路标的宏观特征。例如,我们可以在路标的外侧边缘创建附件(attachments),以改变其感知的形状。

对目标检测器的替代攻击。  在这项工作中,我们探索了攻击目标检测器,使其无法定位目标,或者检测不存在的目标。我们可以考虑几种不同形式的攻击。一种替代方法是尝试产生物理扰动,保留对象的边界框,但改变其标签(这类似于分类器的目标攻击)。另一种选择是生成更多的2D甚至3D对象,这些对象对人类来说似乎没有意义,但是能被物体检测器检测并标记。这两个攻击中的任何一个的成功都将会对安全产生重大影响,这两个攻击已经被证明在数字[ 13、22 ]中有效。

语义分割的扩展。  比物体检测更广泛的任务是语义分割——网络将场景中的每个像素标记为属于一个物体。最近的工作显示了针对语义分段的数字攻击[ 22 ]。一个未来重要的工作问题是如何扩展分类器和检测器的当前攻击技术(正如这项工作所显示的),以在分段网络上创建物理攻击。

对真实系统的影响。  现有的网络物理系统,如汽车和无人机,将物体检测器集成到由预处理和后处理步骤组成的控制流程中。我们展示的攻击只针对孤立的目标检测组件(特别是YOLO v2 )。了解这些攻击是否能够以端到端的方式破坏完全控制流程是一个重要的公开问题。虽然YOLO v2确实从我们的攻击视频中识别出了一些帧中的停车路标,但是一个真正的系统通常会根据大多数预测而不是几帧来做出控制决定。我们的攻击设法欺骗检测器在大多数测试的视频帧中没有看到停车路标。

尽管有这些观察,我们强调,要理解广泛类别的物体检测模型对物理对抗样本的脆弱性,关键的一步是创建能够攻击最先进的物体检测器的算法。在这项工作中,我们展示了如何将现有的具有位置和旋转不变性的RP2算法扩展到相对受控的环境中攻击目标检测器。

7、结论

从为分类器生成健壮的物理扰动的算法开始,我们利用位置和旋转不变性对其进行扩展,为最先进的物体检测器生成物理扰动——这是一类更广泛的深层神经网络,用于动态设置中检测和标记场景中的物体。物体检测器在诸如自动驾驶的网络物理系统中很受欢迎。我们用YOLO v2物体检测器进行了实验,表明物理扰动停车路标是可能的,这样检测器就会忽略它。当被出示对抗性海报扰动的视频时,YOLO在受控实验室环境85.6 %的视频帧和在室外环境中72.5 %的视频帧未能识别出该路标。当收到对抗性贴纸扰动的视频时,YOLO无法识别受控实验室环境中85 %的视频帧和室外环境中63.5 %的视频帧的路标。我们还观察到对Faster R-CNN检测器的受限黑盒的转移能力。海报扰动在受控实验室环境中85.9 %的视频帧和户外环境中40.2 %的视频帧欺骗了Faster R-CNN。因此,我们的工作采取步骤使得对物体检测器易受物理对抗样本影响的问题有更深入的了解。

你可能感兴趣的:(论文翻译,对抗样本,深度学习)