发表位置: CVPR 2018
摘要
最近的研究表明,由于输入中添加了小幅度的扰动,致使深度神经网络(dnn)很容易受对抗样本的攻击。此外,新兴的物理系统在保证安全的情况下也会使用深度神经网络,因此,对抗样本可能会误导这些物理系统,产生无法计量的危险。因此,理解物理世界中的对抗攻击是开发弹性(resilient)学习算法的重要一步。因此,作者提出了一种通用的攻击算法,鲁棒物理扰动,在不同的物理条件下产生具有鲁棒性的视觉对抗扰动。
研究背景
在处理计算机视觉任务时,深度神经网络已经达到了最先进的水平,有时甚至可以与人类竞争。基于这些成功,它们越来越多地被用作物理系统控制管道的一部分,如汽车、无人机和机器人。然而,最近的研究表明,深度神经网络容易受到敌对性干扰,输入对深度神经网络的精心设计的修改,可能会导致它们控制的系统产生意想不到的潜在危险。这些危险最近引起了广泛关注,从数字领域(例如修改场景对应的图像)扩展到物理领域。作者将路标分类器作为的目标,发起对抗攻击,影响路标分类器的正常决策。
研究方案
1.需要注意的内容
2.具体方案
作者在添加对抗扰动时,先不考虑物理条件,采用基于优化的方法针对单个的图像生成扰动,然后考虑如何使用物理条件更新上述方法。
(1)优化目标
min H ( x + δ , x ) , s . t . , f θ ( x + δ ) = y ∗ \min H(x + \delta ,x),{\rm{s}}{\rm{.t}}{\rm{., }}{f_\theta }(x + \delta ) = {y^*} minH(x+δ,x),s.t.,fθ(x+δ)=y∗(1)
其中,
x:目标样本或原始样本;
H:原始样本和目标样本的距离度量函数;
f:自动驾驶领域的路标分类器,也叫做目标函数;
y*:目标标签;
为了有效地解决上述约束优化问题,作者使用Lagrangian-relaxed form对上述目标函数进行优化,即
a g r m i n δ λ ∣ ∣ δ ∣ ∣ p + J ( f θ ( x + δ ) , y ∗ ) \mathop {{\rm{agrmin}}}\limits_\delta \lambda ||\delta |{|_p} + J({f_\theta }(x + \delta ),{y^*}) δagrminλ∣∣δ∣∣p+J(fθ(x+δ),y∗) (2)
其中,
J:损失函数,用于度量目标标签和模型预测标签之间的差异;
λ \lambda λ:控制失真正规化的超参数;
∣ ∣ ⋅ ∣ ∣ p || \cdot |{|_p} ∣∣⋅∣∣p: 度量原始样本和目标样本之间的距离,即H
(2)如何根据物理条件更新目标函数
作者首先对包含o的图像对其物理和数字变换下的分布 X V {X^V} XV进行建模,然后对不同的实例 x i {x_i} xi进行抽样。一个物理扰动只能添加到 x i {x_i} xi中的特定对象o(例如,停止符号)。在路标分类的例子中,o是我们要操纵的停止标志。给定在物理世界中拍摄的图像,我们需要确保单个扰动添 δ \delta δ加到o中,来欺骗不同物理条件下的目标分类器。然而,物理现象的建模是复杂的,这样的合成转换可能会丢失物理效果。 为了更好地捕捉物理条件变化的影响,作者通过生成包含实际物理条件变异性的实验数据和合成变换 X V {X^V} XV中选取实例 x i {x_i} xi。
为了确保生成的扰动仅适用于目标o,作者引入mask,该mask用于将计算得到的扰动投影到路标。
mask的作用:用于将计算得到的扰动投影到物体表面的目标区域(即路标)。除了提供空间位置,mask也有助于产生可见但不会被人眼注意的扰动。为了做到这一点,攻击者可以把mask塑造成大街上常见的涂鸦破坏行为,大多数人都期待并忽视这些涂鸦,因此隐藏了人类心理的不安。
mask是一个矩阵Mx,其维数与道路标识分类器输入的大小相同。Mx在没有添加扰动的区域为0,在优化期间添加扰动的区域为1。
mask放置位置确定:****(1)使用L1正则化和一个占据目标区域整个表面的mask来计算扰动。L1这边正则化使优化器倾向于一个稀疏的扰动向量,因此扰动集中在最脆弱的区域。可视化产生的扰动可以指导mask位置的放置。(2)使用L2重新计算扰动,并在第一步识别出的脆弱区域上放置一个mask。
L1正则化得到的十一个稀疏解,L2正则化得到的是多个解(暂时这样理解)。
为了可视化误差,作者在目标函数中增加了一个模型打印机颜色复制错误,NPS,
N P S = ∑ p ^ ∈ R ( δ ) ∏ p ′ ∈ P ∣ p ^ − p ′ ∣ NPS =\sum\limits_{\hat p \in R(\delta )} {\prod\limits_{{p^{'}} \in P} {|\hat p - {p^{'}}|} } NPS=p^∈R(δ)∑p′∈P∏∣p^−p′∣ (3)
则最终的目标函数为,
arg min λ ∣ ∣ M x ⋅ δ ∣ ∣ p + N P S + E x i − X V J ( f θ ( x + T i ( M x ⋅ δ ) ) , y ∗ ) \arg \min \lambda ||{M_x} \cdot \delta |{|_p} + NPS + {E_{{x_i} - {X^V}}}J({f_\theta }(x + {T_i}({M_x} \cdot \delta )),{y^*}) argminλ∣∣Mx⋅δ∣∣p+NPS+Exi−XVJ(fθ(x+Ti(Mx⋅δ)),y∗) (4)
其中, M x {M_x} Mx表示mask矩阵, T i {T_i} Ti 表示将对象上的变换映射到扰动上的变换的对齐函数。
最后,攻击者将优化结果出来,裁剪扰动 M x {M_x} Mx,并将其放到目标对象o上。
实验部分
数据集:LISA和GTSRB
路标分类器:LISA-CNN[1]和GTSRB-CNN[2]
论文代码:https://github.com/evtimovi/robust_physical_perturbations
[1] N. Papernot, I. Goodfellow, R. Sheatsley, R. Feinman, and
P. McDaniel. cleverhans v1.0.0: an adversarial machine learning library. arXiv preprint arXiv:1610.00768, 2016.
[2] J. Stallkamp, M. Schlipsing, J. Salmen, and C. Igel. Man vs.computer: Benchmarking machine learning algorithms for traffic sign recognition. Neural Networks, 2012.