Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks
利用平移不变攻击规避针对迁移性对抗样本的防御
深度神经网络对对抗样本具有脆弱性,通过添加不可察觉的扰动误导分类器。一个有趣的性质是他们的好的迁移性,是的在现实世界中很容易的进行黑盒攻击。由于对抗攻击的威胁,很多的方法被提出来改善鲁棒性。几个顶尖的防御被证明可以对于迁移样本样本具有鲁棒性。在这篇文章中,我们提出了平移不变性攻击方法来生成更具有迁移性的对抗样本,来攻击防御模型。通过在一个集成的变换的图像上,优化扰动,生成的对抗样本对于白盒模型不敏感,具有更好的迁移性。为了改善攻击的有效性,我们呢进一步证明了我们的方法可以通过涉及没有变换的图片在一个预训练的模型上的梯度。我们的方法可以一般性的适合用于任何的基于梯度的攻击方法。进一步的ImageNet上的实验,验证了所提出的方法的有效性。我们的最好的攻击欺骗了8个顶尖的防御在平均82%的承诺功率上,基于只是迁移的,证明了当前防御技术的不安全。
尽管巨大的成功,深度神经网络被证明对于对抗样本有很高的脆弱性。这些恶意生成的对抗样本和合法的输入是区分不开来的,通过添加小的扰动,但是却使得深度模型却做出了没合理的预测,即使是在物理世界中,已经引起了在安全敏感的应用中的担忧,例如,自动驾驶,医疗保健和金融。
统计深度神经网络越来越引起关注,因为生成的对抗样本可以作为一个重要的代理来评估不同模型的鲁棒性和改善鲁棒性。几个方法已经被提出来生成对抗样本,用所给模型的梯度信息,例如快速梯度符号法,基本迭代法,CW方法,这些作为白盒攻击。更多的是,对抗样本有跨模型的迁移性,例如,在一个模型上构造的对抗样本可以欺骗一个不同的模型以一个很高的置信度。迁移性使得实践黑盒攻击在真实事件中的应用并且包含了严重的安全威胁。
对抗样本的威胁激励了在建立鲁棒模型或者来防御对抗攻击的进一步研究。这些研究包括使用对抗样本训练,图像降噪和变换,理论证明的防御,和其他等等。尽管没有证明的防御证明可以对通用的攻击防御,他们通过引起梯度模糊来实现,这可以被新的攻击轻易的规避。然而,一些防御生成可以抵制迁移性对抗样本,很难通过黑盒攻击来躲避他们。
防御模型的杜雨迁移对抗样本的抵抗,很大程度上是因为,防御做出的预测,基于不同的决策区域,相比常规训练的模型。例如,我们证明了几个常规训练的模型和防御模型见图2.来表示他们预测的决策边界。可以看出常规训练的模型有相似的注意力图,然而防御包含了不同的注意力图。一个相似的观察也可以发现,防御模型的梯度对于输入空间,和人类感知一致。尽管这些常规训练的模型似乎噪声哼多。防御的这个现象,可能是在不同的数据分布下训练引起的,或者在分类之前的凸显变换。对于基于迁移性的黑盒攻击,一个对抗样本通常通过一个单个输入生成的,来攻击一个白盒模型。所以生成的对抗样本被高度的使用了决策区域修正,或者在给定输入点的白盒模型的梯度,使得很难迁移到其他的防御模型,这些防御模型依赖不同的决策区域来预测。因此,对抗样本的迁移性被很大程度上削弱了,对于这些防御模型。
为了放大在模型之间的不同的决策区域的影响,规避迁移性对抗样本的防御,我们提出了一个 平移不变性攻击方法。实际上,我们对于一组有合法的图片和它的变换的版本的图片,来生成一个对抗样本。我们希望出来的对抗样本对于被攻击的白盒模型的决策区域变的不那么敏感,并且有一个更高的迁移性来欺骗另一个具有防御机制的黑盒模型。然而,为了生成这样的一个对抗样本,我们需要计算一组图片中所有图片的梯度,这带来了更多的算力。为了改善我们攻击的效率,我们进一步证明了我们的方法可以通过涉及一个在预训练模型上在一个温和的假设上,没有变换的图片的梯度。通过集合提出的方法到任何基于梯度的攻击方法(例如:快速梯度符号法),我们获得了更多的迁移性的对抗样本,并且相似的计算复杂度。
在ImageNet上的进一步的实验证明了所提出的输入不变性攻击方法,有助于改善黑盒攻击的成功率以很大的优势,来攻击防御模型。我们最好的攻击达到了平均82%,在规避8个顶尖的防御模型,只是基于迁移性的,因此证明了单签防御模型的不安全性。
对抗样本. 深度神经网络被证明对于对抗样本具脆弱性,首先是在视觉领域。之后几个方法被提出来生成对看过样本,以高的成功率和最小的扰动大小为目标。他们也存在在物理世界。尽管对抗样本最近出现在许多其他的领域,我们在这篇文章中关注图像分类的任务。
黑盒攻击. 黑盒攻击这对于模型参数或者梯度是不知道的。对抗样本的迁移性可以被用来进行黑盒攻击。几个方法已经提出来改啥 迁移性,使得更具有力量的黑盒攻击。除了基于迁移性的黑盒攻击,有其他的工作来试试黑盒攻击基于自适应查询。例如,Papernot等人是使用查询来蒸馏目标模型的知识,并且训练一个代理模型。他们因此可以将黑盒攻击转变为白盒攻击。最近的方法是哟哦能够查询来评估黑盒模型梯度和决策边界来生成对抗样本。然而,这些方法通常需要大量的插叙,在现实世界中是不实际的。这篇文章中,我们诉诸基于迁移的黑盒攻击。
攻击一组样本. 一个对抗扰动可以通过一组合法的样本来生成。在22,通用的对抗扰动通过整个数据分布来生成,这欺骗了模型在多数的自然的图片上。在2,对抗扰动在一个变化的分布上优化,这和我们的方法类似。主要的的不同在与三点。第一,我们想要生成迁移对抗样本攻击防御模型,而在2的作者提出在物理世界中合成对抗样本。第二,我们只是使用平移操作,他们收纳柜了一系列的变换操作,例如旋转,平移,添加噪声,等等。第三,我们研究了一个算法对于优化那些只需要计算梯度的对于没有平移的图片,而他们计算一个批次的图片的梯度通过抽样。
防御对抗攻击. 许多的方法已经被提出来增强深度学习模型的鲁棒性。除了直接使得模型产生正确的分类对于对抗样本,一些其他的方法相反尝试检测他们。然而,许多没有证实的防御证明了通过模糊梯度的鲁棒性,这可以被新的攻击所规避。尽管这些防御在白盒设置下没有鲁棒性,他们中的一些经验上证明了在黑盒设置下可以抵制迁移的对抗样本。在这篇文章中,我们关注生成更具有迁移性的对抗样本来攻击这些防御。
在这个部分,我们提供了详细的关于我们方法的描述。设 x r e a l x^{real} xreal为一个真实的样本, y y y表示对应的标签。考虑一个分类器 f ( x ) : x → y f(x): x \rightarrow y f(x):x→y,输出一个标签作为输入的预测,我们想要生成一个对抗样本 x a d v x^{adv} xadv,在视觉上和 x r e a l x^{real} xreal区分不开来,但是可以欺骗分类器,例如: f ( x a d v ) ≠ y f(x^{adv}) \neq y f(xadv)=y。在多数情况下, L ∞ L_\infty L∞范数的对抗扰动需要小于一个阈值 ϵ \epsilon ϵ,因为 ∥ x a d v − x r e a l ∥ p ≤ ϵ \parallel{x^{adv} - x^{real}}\parallel_p \leq \epsilon ∥xadv−xreal∥p≤ϵ。在这篇文中,我们使用 L ∞ L_\infty L∞范数作为测量的方法。对于对抗样本生成,目标是最大化分类器的损失函数 J ( x a d v , y ) J(x^{adv}, y) J(xadv,y), J J J通常是交叉熵损失。所有受限的优化问题如下:
arg max x a d v J ( x a d v , y ) , s . t . ∥ x a d v − x r e a l ∥ ∞ ≤ ϵ (1) \underset{x^adv}{\operatorname{arg\,max}}J(x^{adv, y}), \quad s.t. \parallel{x^{adv} - x^{real}}\parallel_\infty \leq \epsilon \tag{1} xadvargmaxJ(xadv,y),s.t.∥xadv−xreal∥∞≤ϵ(1)
为了解决这个优化问题,对应输入的损失函数的梯度,需要被结算,命名为白盒攻击。然而,在一些情况下,我们不能接触到分类器的梯度,这里我们需要以黑盒的方法来实施攻击。我们求助于迁移性对抗样本,通过一个不同的白盒分类器来生成,但是对于黑盒攻击具有较高的迁移性。
几个方法被提出来解决公式1中的优化问题,我们在这个部分给出一个简要的介绍。
Fast Gradient Sign Method(FGSM). 生成一个对抗样本 x a d v x^{adv} xadv,通过线性化在输入空间上的损失函数,并且实施一步更新:
x a d v = x r e a l + ϵ ⋅ s i g n ( ∇ x J ( x r e a l , y ) ) (2) x^{adv} = x^real + \epsilon \cdot sign(\nabla{x}{J(x^{real}, y)}) \tag{2} xadv=xreal+ϵ⋅sign(∇xJ(xreal,y))(2)
∇ x J \nabla{x}{J} ∇xJ是损失函数对应输入 x x x的梯度。 s i g n ( ⋅ ) sign(\cdot) sign(⋅)是符号函数,使得扰动在 L ∞ L_\infty L∞范数的范围内。FGSM可以生成更具有迁移性的对抗样本,但是对于攻击白盒攻击模型,同行不是那么足够的有效。
Basic Iterative Method(BIM). 拓展了FGSM通过迭代的运用梯度更新多次,使用一个小的步长 α \alpha α,解释如下:
x t + 1 a d v = x t a d v + α ∗ s i g n ( ∇ x J ( x t a d v , y ) ) (3) x^{adv}_{t+1} = x^{adv}_t + \alpha * sign(\nabla{x}{J(x^{adv}_t, y)}) \tag{3} xt+1adv=xtadv+α∗sign(∇xJ(xtadv,y))(3)
x 0 a d v = x r e a l x^{adv}_0 = x^{real} x0adv=xreal。为了限制生成的对抗样本的在 x r e a l x^{real} xreal的 ϵ − \epsilon- ϵ−ball上,我们在每次更新后裁剪了 x t a d v x^{adv}_t xtadv, 后者设置 α = ϵ T \alpha = \frac{\epsilon}{T} α=Tϵ, T T T是迭代次数,已经被证明BIM包含了更有力的白盒攻击,相比于FGSM,但是以糟糕的迁移性为代价。
Momentum Iterative Fast Gradient Sign Method(MI-FGSM). 提出了通过集成一个动量项到迭代攻击的方法中,来改善对抗样本的迁移性,更新步骤如下:
g t + 1 = μ ⋅ g t + ∇ x J ( x t a d v , y ) ∥ ∇ x J ( x t a d v , y ) ∥ 1 (4) g_{t+1} = \mu \cdot g_t + \frac{\nabla{x}{J(x^{adv}_t, y)}}{\parallel{\nabla{x}{J(x^{adv}_t, y)}}\parallel_1} \tag{4} gt+1=μ⋅gt+∥∇xJ(xtadv,y)∥1∇xJ(xtadv,y)(4)
x t + 1 a d v = x t a d v + α ⋅ s i g n ( g t + 1 ) (5) x^{adv}_{t+1} = x^{adv}_t + \alpha \cdot sign(g_{t+1}) \tag{5} xt+1adv=xtadv+α⋅sign(gt+1)(5)
g t g_t gt收集了直到第 t − t- t−次迭代的梯度信息,和一个衰减因子 μ \mu μ。
Diverse Inputs Method. 运用随机的变换到输入,将这些变换的图片喂给分类器来计算梯度。变换包括随缩放和填充,具有一定可能性。这个方法结合基于动量的方法可以进一步改善迁移性。
Carlini & Wagner’s Method(C&W). 是一个强的基于优化的方法,解决:
arg min x a d v ∥ x a d v − x r e a l ∥ p − c ⋅ J ( x a d v , y ) (6) \underset{x^{adv}}{\operatorname {arg\,min}} \parallel{x^{adv} - x^{real}}\parallel_p - c \cdot J(x^{adv}, y) \tag{6} xadvargmin∥xadv−xreal∥p−c⋅J(xadv,y)(6)
损失函数 J J J可以和交叉熵损失不同,这个方法的目的是找到具有最小的扰动大小的对抗样本,来确保对于不同模型的鲁棒性,它也缺少了对于黑盒攻击像BIM的有效性。
尽管许多的国内攻击方法可以生成对抗样本,具有非常高的迁移性,在不同的常规训练模型上,他们以黑盒的方法攻击防御模型,就不是那么的有效了,一些防御方法已经被证明对于黑盒攻击有相当的鲁棒性,所以,我们想要回答这个问题:这些防御方法真的没有迁移性的对抗样本吗?
我们发现防御方法使用的识别目标类别的决策区域和使用常规训练的模型的不同,见图2。当通过在3.1部分介绍的方法生成一个对抗样本的时候,对抗样本只是使用单个合法的样本来优化。所以它可以被决策区域修正或者在输入数据点的被攻击的白盒模型的梯度。对于其他的黑盒防御模型,这些模型具有不同的决策区域后者梯度,对抗样本很难变的依然对抗。因此,这些防御方法被证明对于迁移性对抗样本具有鲁棒性。
为了生成对抗样本对于白盒模型的决策区域不那么的敏感,我们提出了 平移不变性攻击 的方法。实际上,不是优化目标函数在单个点的,在公式1,提出的方法使用了一些列的平移的图片来优化一个对抗样本。
arg max x a d v ∑ i , j w i j J ( T i j ( x a d v ) , y ) s . t . ∥ x a d v − x r e a l ∥ ∞ ≤ ϵ (7) \begin{aligned} \underset{x^{adv}}{\operatorname{arg\,max}} \sum_{i, j} w_{ij} J(T_{ij}(x^{adv}), y) \\ s.t. \parallel{x^{adv} - x^{real}}\parallel_\infty \leq \epsilon \end{aligned} \tag{7} xadvargmaxi,j∑wijJ(Tij(xadv),y)s.t.∥xadv−xreal∥∞≤ϵ(7)
T i j ( x ) T_{ij}(x) Tij(x)平移操作,移动图片 x x x,在 i i i和 j j j两个维度上,例如,每个像素 ( a , b ) (a, b) (a,b),平移图片是 T i j ( x ) a , b = x a − i , b − i T_{ij}(x)_{a, b} = x_{a-i, b-i} Tij(x)a,b=xa−i,b−i, w i j w_{ij} wij是损失 J ( T i j ( x a d v ) , y ) J(T_{ij}(x^{adv}), y) J(Tij(xadv),y)的权重,我们设置 i , j ∈ { − k , ⋯ , 0 , ⋯ , k } i, j \in \{-k, \cdots, 0, \cdots, k\} i,j∈{ −k,⋯,0,⋯,k}, k k k是平移的像素最大的数量。使用这个方法,生成对抗样本对于被攻击的比啊盒模型不在那么的敏感,这可以迁移到另一个模型以一个很好的成功率。在这篇文章中,我们选择平移操作而不是其他的变换(例如,旋转,缩放,等等。),因为,我们可以研究一个有效的算法来计算损失函数的梯度,以在卷积神经网络上的平移不变性的袈裟。
为了解决公式7的优化问题,我们需要计算 ( 2 k + 1 ) 2 (2k + 1)^2 (2k+1)2张图片的梯度,这导致了更多的算力。采用一小部分的平移图片,进行梯度计算是一个可行的方案。但是我们证明了我们可以计算一个图片的梯度在一个温和的假设下。
卷积神经网络被提出有平移不变的特性,也就是输入的物体和它的无关。实际上,CNNs不是真正的平移不变性。所以我们做出了一个假设,平移不变的属性用小的扰动可以被维持住(在4.2部分被实验证明)。在我们的问题中,我们平移一个图片超过10个像素在每一个维度上(例如, k ≤ 10 k \leq 10 k≤10)。因此,基于这个假设,平移图片 T i j ( x ) T_{ij}(x) Tij(x)几乎和输入到模型上的 x x x一样,同样梯度也是
∇ x J ( x , y ) ∣ x = T i j ( x ˙ ) ≈ ∇ x J ( x , y ) ∣ x = x ˙ (8) \nabla{x}{J(x, y)}|_{x = T_{ij}(\dot{x})} \approx \nabla{x}{J(x, y)}|_{x = \dot{x}} \tag{8} ∇xJ(x,y)∣x=Tij(x˙)≈∇xJ(x,y)∣x=x˙(8)
之后,我们计算损失函数的梯度,定义在公式7,在点 x ˙ \dot{x} x˙
∇ x ( ∑ i , j w i j J ( T i j ( x ) , y ) ) ∣ x = x ˙ = ∑ i , j w i j ∇ x J ( T i j ( x ) , y ) ∣ x = x ˙ = ∑ i , j w i j ( ∇ T i j ( x ) J ( T i j ( x ) , y ) ⋅ ∂ T i j ( x ) ∂ x ) ∣ x = x ˙ = ∑ i , j w i j T − i − j ( ∇ x J ( x , y ) ∣ x = T i j ( x ˙ ) ) ≈ ∑ i , j w i j T − i − j ( ∇ x J ( x , y ) ∣ x = x ˙ ) (9) \begin{aligned} & \nabla_{x}{(\sum_{i,j} w_{ij} J(T_{ij}(x), y)})|x = \dot{x} \\ & = \sum_{i,j} w_{ij} \nabla_{x}{J(T_{ij}(x), y)}|x = \dot{x} \\ & = \sum_{i,j} w_{ij} (\nabla_{T_{ij}(x)}{J(T_{ij}(x), y)} \cdot \frac{\partial{T_{ij}(x)}}{\partial{x}})|x = \dot{x} \\ & = \sum_{i,j} w_{ij} T_{-i-j}(\nabla_x J(x, y)|x = T_{ij}(\dot{x})) \\ & \approx \sum_{i,j} w_{ij} T_{-i-j}(\nabla_x J(x, y)|x = \dot{x}) \end{aligned}\tag{9} ∇x(i,j∑wijJ(Tij(x),y))∣x=x˙=i,j∑wij∇xJ(Tij(x),y)∣x=x˙=i,j∑wij(∇Tij(x)J(Tij(x),y)⋅∂x∂Tij(x))∣x=x˙=i,j∑wijT−i−j(∇xJ(x,y)∣x=Tij(x˙))≈i,j∑wijT−i−j(∇xJ(x,y)∣x=x˙)(9)
考虑公式9,我们不需要计算 ( 2 k + 1 ) 2 (2k + 1)^2 (2k+1)2张图片,相反,我们只需要获得没有平移的图片 x ˙ \dot{x} x˙,然后平均所有的平移的梯度。这个步骤等价于,将梯度和一个内核涉及,所有的权重 w i j w_{ij} wij:
∑ i , j w i j T − i − j ( ∇ x J ( x , y ) ∣ x = x ˙ ) ↔ W ∗ ∇ x J ( x , y ) ∣ x = x ˙ \sum_{i,j} w_{ij} T_{-i-j} (\nabla_x J(x, y)|x = \dot{x}) \leftrightarrow W * \nabla_x J(x, y)|x = \dot{x} i,j∑wijT−i−j(∇xJ(x,y)∣x=x˙)↔W∗∇xJ(x,y)∣x=x˙
w w w是一个内核矩阵,大小为 ( 2 k + 1 ) × ( 2 k + 1 ) (2k + 1) \times (2k + 1) (2k+1)×(2k+1), W i , j = w − i − j W_{i,j} = w_{-i-j} Wi,j=w−i−j。我们将在下个部分指定 W W W。
有多种方式来生成内核矩阵 W W W。一个基本的设计原则是,大的平移的图片,应该有相对低的权重,来制作对抗扰动,欺骗模型,在一个没有平移的图片。在这篇文章中,我们考虑三个不同的选择:
在4.3部分,我们实验表这三个内核。
注意到在部分3.2.1,我们值证明了如何计算损失函数的梯度,定义在公式7,但是不指定更新算法,来生成对抗样本。这表明,我们的方法可以集成到任何基于梯度的攻击方法,例如:FGSM,BIM,MI-FGSM,等等。对于基于梯度的攻击方法在3.1部分,在每次迭代,我们计算梯度 ∇ x J ( x t a d v , y ) \nabla_x J(x^{adv}_t, y) ∇xJ(xtadv,y),在当前的 x t a d v x^{adv}_t xtadv,之后将梯度和与定义的内核 W W W进行卷积,最后,获得新的 x t + 1 a d v x^{adv}_{t+1} xt+1adv,遵循在不同攻击方法的更新规则。例如,结合我们的平移不变性方法和快速梯度符号法(TI-FGSM),有如下的更新规则:
x a d v = x r e a l + ϵ ⋅ s i g n ( W ∗ ∇ x J ( x r e a l , y ) ) (10) x^{adv} = x^{real} + \epsilon \cdot sign(W * \nabla_x J(x^{real}, y)) \tag{10} xadv=xreal+ϵ⋅sign(W∗∇xJ(xreal,y))(10)
当然,将平移不变性结合到基本迭代法产生的TI-BIM算法
x t + 1 a d v = x t a d v + α ⋅ s i g n ( W ∗ ∇ x J ( x t a d v , y ) ) (11) x^{adv}_{t+1} = x^{adv}_t + \alpha \cdot sign(W * \nabla_x J(x^{adv}_t, y)) \tag{11} xt+1adv=xtadv+α⋅sign(W∗∇xJ(xtadv,y))(11)
平移不变性可以相似的结合到MI-FGSM,DIM,为TI-MI-FGSM和TI-DIM。
在这个部分,我们实施了实验结果来证明所提出的方法的有效性。我们首先在部分4.1,指定了实验设置。之后,我们在4.2部分杨正了卷积神经网络的平移不变性,我们进一步实施了两个实验,来研究不同的内核的影响和内核大小,在4.3部分和4.4部分,我们最后在4.5部分和4.6部分比较了提出的方法和基线方法的结果。
我们使用了一个ImageNet兼容性数据集,有100张图片构成,来实施实验。这个数据集在NIPS2017对抗比赛中使用,我们包括了8个防御模型,这些模型被阵证明对于在ImageNet数据集上的黑盒攻击的鲁棒性。他们是:
为了基于迁移性攻击这些防御方法,我们也包含了四个常规训练的模型:Inception v3(Inc-v3), Inception v4(Inc-v4), Inception ResNet v2(IncRes-v2), ResNet v2-152(Res-v2-152),作为白盒模型来生成对抗样本。
在我们的实验中,我们将我们的方法集成到FGSM,动量迭代快速梯度符号法(MI-FGSM),多样性输入方法(DIM)。我们没有包含基本迭代法和C&W方法,因为他们不擅长构造具有迁移性的样本。我们将攻击集合到我们的平移不变性方法,成为:TI-FGSM, TI-MI-FGSM, TI-DIM。
对于超参数的设置,我们设置最大的扰动 ϵ = 16 \epsilon = 16 ϵ=16,在所有的实验中,像素值在[0, 255]。对于迭代攻击方法我们设置迭代次数为10,迭代步长为 α = 1.6 \alpha = 1.6 α=1.6。对于MI-FGSM和TI-MI-FGSM,我们采用默认的衰减因子 μ = 1.0 \mu = 1.0 μ=1.0,对于DIM和TI-DIM,变换概率设置为0.7,请注意对于每一个攻击方法的设置和它的平移不变版本一样,因为我们的方法不关注特定的攻击步骤。
在这个部分,我们首先验证了卷积神经网络的平移不变属性。我们使用原始的图像1000张来自数据集,并且pinyin他们在门个方向上-10到10。我们将原始图像和平移的图像输入的Inc-v3, Inc-v4, IncRes-v2, Res-v2-152。每个输入图片的损失值,被模型给出,我们在每个位置平均了所有平移图片的损失,见图3。
图3:我们展示了损失表面,Inc-v3, Inc-v4, IncRes-v2, Res-v2-152,在每个点的平移的图片上
可以看到,损失表面一般平滑,用平移的从-10到10,在每个维度上,所以我们做出了假设:平移不变属性在小范围内保持。在我们的攻击中,图片平移不多于10个像素在每个维度上,原始和平移的图片的损失值非常的相似,因此,我们考虑一个平移的图片集合和相对应的输入到模型上的输入几乎相同。
在这个部分,我们展示了提出的迁移不变性攻击方法不同选择的内核的实验结果。我们用TI-FGSM, TI-MI-FGSM和TI-DIM,攻击Inc-v3模型,用三个类型的内核,例如:均匀内核,线性内核,和高斯内核,在3.2.2介绍的。在表1,我们报告了在我们研究的8个防御模型的黑盒攻击成功率,成功率是被相应的模型使用生成的对抗图片作为输入错误分类的成功率。
表1: 用不同选择的内核攻击8个防御方法的黑盒攻击成功率。对抗样本是通过Inc-v3,shooingTI-FGSM,TI-MI-FGSM和TI-DIM,使用均匀内核,线性内核和高斯内核。
我们可以看到对于TI-FGSM,线性内核导致了更好的结果相比于均匀内核和高斯内核。对于更强的攻击例如TI-MI-FGSMM和TI-DIM,高斯内核去的了相似和或者甚至更好的结果,相比于线性内核。然而,线性内核和高斯内核都比均匀内核有效。这表明了我们应该设计一个内核,较低的权重对于较大的pinyin,例如在3.2.2讨论的,我们在接下来的实验中使用高斯内核。
内核 W W W的大小在改善黑盒攻击成功率上也非常的重要。如果内核大小等于 1x1,基于平移不变的攻击下降为他们普通的版本。因此,我们实施了一个烧灼实验来检查不同内核大小的影响。
我们用TI-FGSM,TI-MI-FGSM,和TI-DIM来攻击Inc-v3模型,使用高斯和,长度在1到21,力度为2。在图4,我们证明了攻击五个防御模型(IncRes-v2 e n s _{ens} ens, HGD, R&P, TVM, NIPS-r3)的撑哦概率。一开始,成功率持续的上涨,然后保持不变,当内核大小超过15x15。因此,接下来内核大小设置为15x15。
图4: 攻击ncRes-v2 e n s _{ens} ens, HGD, R&P, TVM, NIPS-r3,的攻击成功率。对抗样本使用Inc-v3生成,内核长度从1到21.
我们也证明了通过TI-FGSM在Inc-v3模型上生成的对抗图片,用不同的内核大小,见图5.因为所给模型的平滑性的影响,我们可以看到,当使用一个较大的内核的时候,对抗扰动变的平滑了。
图5:通过TI-FGSM在Inc-v3模型上生成的对抗图片,用不同的内核大小。
在这个部分,我们将基于平移不变的攻击的黑盒攻击成功率和基线攻击进行比较。我们首先实施了对于Inc-v3, Inc-v4, IncRes-v2, Res-v2-152的攻击,使用FGSM,MI-FGSM,DIM,和他们的拓展,通过结合平移不变的攻击方法,TI-FGSM, TI-MI-FGSM, TI-DIM,我们采用15x15的高斯内核,在实验的设置中。我们之后生成对抗样本,来攻击8个防御模型,我们考虑只是基于迁移性。我们在表2报告对于FGSM和TI-FGSM的攻击成功率,表3报告了对于MI-FGSM和TI-MI-FGSM的攻击成功率,在表4报告了DIM和TI-DIM的攻击成功率。
表2:攻击8个防御方法的黑和攻击成功率,在Inc-v3, Inc-v4, IncRes-v2, Res-v2-152构造的对抗样本,使用FGSM和TI-FGSM
表3:攻击8个防御方法的黑和攻击成功率,在Inc-v3, Inc-v4, IncRes-v2, Res-v2-152构造的对抗样本,使用MI-FGSM和TI-MI-FGSM
表4:攻击8个防御方法的黑和攻击成功率,在Inc-v3, Inc-v4, IncRes-v2, Res-v2-152构造的对抗样本,使用DIM和TI-DIM
从表格中,我们可以观察到攻击防御方法的成功率当采用所提出的方法不管是攻击算法或者被攻击的白盒模型,都以很大的优势被改善了。一般的,基于平移不变的攻击始终草果基线攻击5%~30%。特别的,当使用TI-DIM,结合我们的方法和DIM,攻击IncRes-v2模型,产出的对抗样本有大约60%的成功率攻击这些防御方法(如表4所示)。这证明当前防御方法对于黑盒攻击的脆弱性。结果也验证了所提出的方法的有效性。尽管,我们只是比较了我们的方法的结果和基线方法攻击防御模型,我们的攻击依然保持了成功率在白盒模型设置下和黑盒设置下,攻击常规训练的模型,在附录中有显示。
我们展示了通过Inc-v3生成的对抗图片,使用FGSM和TI-FGSM在图1。可以看出,通过使用TI-FGSM,将梯度卷积一个内核 W W W,在运用到原始图片之前,对抗扰动比那些通过FGSM生成的更加的平滑。这个平滑的效果也出现在了其他的基于平移不不变的攻击中。
图1: 通过快速梯度符号法(FGSM)生成的对抗样本和所提出的平移不变性FGSM(TI-FGSM)生成的对抗样本,相对于Inception v3模型。
在这个部分,我们进一步呈现了当对抗样本通过一个集成的恶模型来构造的结果。Liu等人证明了同时攻击多个模型可以改善生成的对抗样本的迁移性。因为,如果一个对看过样本在多个模型上任然保持对抗性,它更有可能可以迁移到另一个黑盒模型。
我们采用了在7提出的集成方法,融合了不同模型的逻辑激活。我们攻击了一个集成的Inc-v3, Inc-v4, IncRes-v2, Res-v2-152,使用相同的集成权重,使用FGSM, TI-FGSM,MI-FGSM,TI-MI-FGSM,DIM,TI-DIM。我们也使用15x15的高斯内核,在基于平移不变的攻击。
在表5,我们展示黑盒攻击的结果对于8个防御方法。所提出的方法在所有的实验中,在极限方法上,也改善了成功率。值得注意的是,通过TI-DIM构造的对抗样本可以以82%的成功率,基于迁移性的攻击,欺骗顶尖的防御方法。一个使用常规训练模型生成的对抗样本,不关心模型的防御策略。这篇文章中的结果证明了目前的防御方法远不是那么安全,不能部署在现实世界中。
表5: 攻击8个模型的黑盒攻击成功率。对抗样本通过一个集成的Inc-v3, Inc-v4, IncRes-v2, Res-v2-152,使用FGSM, TI-FGSM,MI-FGSM,TI-MI-FGSM,DIM,TI-DIM,构造的。
在这篇文章中,我们提出了一个平移不变的方法来生成对抗样本,对于被攻击的白盒模型的决策区域不那么的敏感,对于防御模型有较高的迁移性。我们的方法通过使用一些列的平移图片来优化一个对抗图片。基于一个假设,我们的方法通过卷积梯度和一个预先定义的内核,来有效的实现。我们实施了实验来验证所提出的方法的有效性。我们的最好的攻击,TI-DIM,集合所提出的平移不变性方法和多样性输入方法,可以以平均82%的成功率欺骗8个顶尖的防御模型,而使用的对抗样本是通过4个常规训练的模型来生成的。结果表明了目前防御方法的脆弱性,因此对于研究一个更加鲁棒的深度学习模型,因此了一个安全的考虑。我们将代码公开在 https://github.com/dongyp13/Translation-Invariant-Attacks。
这篇文章,被国家中心研究所和中国发展项目(No.2017YFA0700904),NSFC Projects(Not. 61620106010, 61621136008, 61571261), Beijing NSF Project(No. L172037), DITD Program JCKY2017204B064, TIangong Institute for Intelligent Computing. NVIDIA NVAIL Program, 和 the projects from Siemens and Intel.
我们首先展示了对于白盒攻击和黑盒攻击在常规训练模型上的,对于所提出的平移不变的攻击方法的结果。我们采用了同样的设置。我们也针对Inception v3(Inc-v3), Inception v4(Inc-v4), Inception ResNet v2(IncRes-v2), ResNetv2-152(Res-v2-152) 生成对抗样本,使用FGSM, TI-FGSM,MI-FGSM,TI-MI-FGSM,DIM,TI-DIM。对于基于平移不变的攻击,我们使用7x7的高斯内核,因为常规训练的模型有相似的决策区域。我们之后使用了这些对抗样本来攻击6个常规训练的模型,Inc-v3, Inc-v4, IncRes-v2, Res-v2-152, VGG-16, Res-v1-152。结果在表6对于,FGSM和TI-FGSM,表7对于MI-FGSM和TI-MI-FGSM,表8对于DIM和TI-DIM。基于平移不变的攻击在多数情况下比基线攻击去的了更好的效果。
更多的是,上面的实验和这篇文中,是基于 L ∞ L_\infty L∞范数实施的,我们进一步证明了所提出方法对于其他范数的运用,特别的对于 L 2 L_2 L2范数。与表2-5的结果相似,我们将FGSM和TI-FGSM的结果呈现在了表9,MI-FGSM和TI-MI-FGSM在表10,DIM和TI-DIM在表11,集成的方法在表12.基于 L 2 L_2 L2范数的所有结果,我们设置最大的扰动 ϵ = 10 ⋅ d \epsilon = 10 \cdot \sqrt{d} ϵ=10⋅d, d d d是输入图片的维度。基于 L 2 L_2 L2的结果也证明了所提出的方法的有效性。
表6: 攻击6个常规训练的模型,Inc-v3, Inc-v4, IncRes-v2, Res-v2-152, VGG-16, Res-v1-152,的攻击成功率,对抗样本使用Inc-v3, inc-v4, IncRes-v2, Res-v2-152,构造,使用FGSM和TI-FGSM。* 表示白盒攻击。
表7: 攻击6个常规训练的模型,Inc-v3, Inc-v4, IncRes-v2, Res-v2-152, VGG-16, Res-v1-152,的攻击成功率,对抗样本使用Inc-v3, inc-v4, IncRes-v2, Res-v2-152,构造,使用MI-FGSM和TI-MI-FGSM。* 表示白盒攻击。
表8: 攻击6个常规训练的模型,Inc-v3, Inc-v4, IncRes-v2, Res-v2-152, VGG-16, Res-v1-152,的攻击成功率,对抗样本使用Inc-v3, inc-v4, IncRes-v2, Res-v2-152,构造,使用DIM和TI-DIM。* 表示白盒攻击。
表9: 基于 L 2 L_2 L2范素攻击8个防御方法的黑盒攻击成功率,对抗样本使用Inc-v3, inc-v4, IncRes-v2, Res-v2-152,构造,使用FGSM和TI-FGSM。
表10: 基于 L 2 L_2 L2范素攻击8个防御方法的黑盒攻击成功率,对抗样本使用Inc-v3, inc-v4, IncRes-v2, Res-v2-152,构造,使用MI-FGSM和TI-MI-FGSM。
表11: 基于 L 2 L_2 L2范素攻击8个防御方法的黑盒攻击成功率,对抗样本使用Inc-v3, inc-v4, IncRes-v2, Res-v2-152,构造,使用DIM和TI-DIM。
表11: 基于 L 2 L_2 L2范素攻击8个防御方法的黑盒攻击成功率,对抗样本使用集成的Inc-v3, inc-v4, IncRes-v2, Res-v2-152,构造,使用FGSM,TI-FGSM,MI-FGSM,TI-MI-FGSM,DIM和TI-DIM。