SKIP CONNECTIONS MATTER: ON THE TRANSFERABILITY OF ADVERSARIAL EXAMPLES GENERATED WITH RESNETS (跳跃连接的重要性,论使用ResNets生成的对抗样本的迁移性)
跳跃连接是当前顶尖的深度神经网络的一个必不可少的重要的组成部分,例如:ResNet, wideResNet, DenseNet, ResNeXt。尽管他们在建立更加深沉的和更加有力的DNNs的巨大的成功,我们在这篇文章中确定了一个令人惊讶的安全的威胁。使用跳跃连接允许更加容易的生成高强度的可迁移的对抗样本。特别的,,在下那个ResNet这样的神经网络(具有跳跃连接),梯度可以反向传播痛殴跳跃连接或者残差块。我们发现使用更多的来自跳跃连接的梯度而不是残差快的梯度,根据一个衰减因子,允许我们构造具有高强度的对抗样本。我们的方法命名为 Skip Gradient Method(SGM)。我们实施了全面的迁移攻击对顶尖的DNNs,包括:Resnets, DenseNets, Inceptions, Inceptions-ResNet, Squeeze-and-Excitation Net-work(SENet)和鲁棒训练的DNNs。我们证明了在梯度力流上运用SGM可以极大的改善构造的攻击的迁移性在几乎所有的情况下。更进一步,SGM可以和容易的结合到现有的黑盒攻击技术,并且获得较高的改善在顶尖的迁移性方法上。我们的研究不知激励了新的研究在DNNs架构的脆弱性上,而且提出进一步的挑战对于设计安全的DNN架构。
在深度神经网络(DNNs),一个跳跃连接建立了一个快捷方式从浅层到深层,通过连接卷积块的输入直接到他的输出(也称为残差快)。虽然神经网络的不同层学习了不同等级的信息,跳跃连接可以保住保留底水平的特征,避免表现下降在添加更多层的时候。这被证明对于建立非常深的强有力的DNNs例如ResNet, WideResNet, DeseNet, ResNeXt来说非常的重要。与此同时,尽管他们高超的表现,DNNs被发现对于对抗样本(或者对抗攻击)极端的脆弱,这些是输入的样本经过有意的轻微的扰动来欺骗一个网络做出错误的于此。对于人类观察者来说,对抗样本经常是不可察觉的,并且可以在不同的模型中迁移。这引起了在DNNs在安全场景下的安全担忧,例如:人脸识别,自动驾驶,视频分析和医学诊断等。
对抗样本可以通过白盒设置(攻击者有目标模型的全部信息)或者黑盒设置(攻击者没有目标模型的信息)来构造。白盒攻击方法例如 Fast Gradient Sign Method(FGSM), Basic Iterative Method(BIM), Projected Gradient Decent(PGD), Carlini and Wagner(Cw),在黑盒设置下经常迁移性较低,对DNN模型构成了有限的威胁,这些模型通常在实践中是保密的。几个技术被提出来来改善在代理模型上构建的黑盒攻击的迁移性。例如:动量增强,多样性输入和变换不变性。虽然这些方法是有小的,他们(和白盒攻击方法)都威胁整个网络(或者是目标模型或者是代理模型),作为一个耽搁的组成部分,却或略了他内在的架构特征。是否DNN架构本身可以暴露更多的对抗攻击迁移性的问题,是一个没有被探索的问题。
在这篇文章中,我们确认了一个这样的脆弱的关与被许多顶尖的DNNs使用的跳跃连接的问题。我们首先实施了一个实验,关于BIM攻击和ResNet-18在ImageNet验证集上,来研究跳跃连接如何影响在这个网络上构建的攻击的对抗强度。在每个最后的3个跳跃连接和残差快,ResNet-18,我们证明了使用梯度方向传播或者是跳跃连接或者是残差块在图1,的攻击的成功率。可以观察到,当使用残差块而不是跳跃连接攻击成功率下降的更加彻底。这表明了来自跳跃连接的梯更加的脆弱(高成功率)。除此之外,我们惊讶的发现跳跃连接暴露了更多的迁移信息。例如,黑盒成功率从52.52%到62.10%,当攻击跳过最后的两个残差块(遵循绿色的线路)。
图1: 左边: 最后3个跳跃连接(绿线)和残差块(黑色的盒子),ImageNet训练的ResNet-18. 右边: 使用梯度流经过或者跳跃连接(向前)或者残蝉快(向左)在每次的结合点(圈)构造的对抗攻击的成功率(白盒/黑盒的形式)。三个反向传播的路径被高亮为不同的颜色,绿色跳过了最后的两个残差块有最好的攻击成功率,红色贯穿3个残差块有最坏的攻击成功率,这些攻击是通过BIM在5000张ImageNet验证集下在最大的 L ∞ L_\infty L∞扰动 ϵ = 16 \epsilon=16 ϵ=16(每个像素值在[0, 255]).黑盒攻击测试在一个 vgg19的目标模型上。
基于以上观察的启发,在这篇文章中,我们提出了 Skip Gradient Method(SGM) 来生成对抗样本,使用更多的来自跳跃连接的梯度而不是残差块的梯度。实践中,SGM利用了一个衰减因子来减少来自残差块的额梯度。我们发现来自梯度流的调整,可以生成较高的迁移性的对抗样本,一个网络中的跳跃连接越多,构造的攻击越具有迁移性。这雨设计原则(例如:“越深”用跳跃连接)托管许多的DNNs模型形成了鲜明的对比。实践中,我们的主要贡献如下:
现有的对抗攻击可以被分为两个类别(1)白盒攻击(2)黑盒攻击。在白盒攻击,攻击者有目标模型的全部的参数信息,而黑盒攻击,慕白哦模型对于攻击者来说是保密的。
设干净的样本 x x x,对应的标签 y y y,目标DNN模型 f f f,攻击的目标是找到一个对抗样本 x a d v x_{adv} xadv欺骗网络进而做出一个错误的分类(例如: f ( x a d v ) ≠ y f(x_adv) \neq y f(xadv)=y),同时依然保持在 ϵ \epsilon ϵ-盒子在 x x x。(例如: ∥ x a d v − x ∥ ∞ ≤ ϵ \parallel{x_{adv} - x}\parallel_\infty \leq \epsilon ∥xadv−x∥∞≤ϵ)。
Fast Gradient Sign Method(FGSM). FGSM扰动干净的图片 x x x一步在梯度方向上 ϵ \epsilon ϵ:
x a d v = x + ϵ ⋅ s i g n ( ∇ x L ( f ( x ) , y ) ) (1) x_{adv} = x + \epsilon \cdot sign(\nabla{x}L(f(x), y)) \tag{1} xadv=x+ϵ⋅sign(∇xL(f(x),y))(1)
基本迭代方法(BIM)是FGSM的迭代版本,对于 T T T步,步长为 ϵ / T \epsilon/T ϵ/T
Projected Gradient Descent(PGD). PGD扰动一个常规的样本 x x x, T T T步,很小的步长,经过每一步的扰动,PGD将对抗样本投影到 ϵ \epsilon ϵ-ball x x x, 如果他超过 ϵ \epsilon ϵ-ball 。
x a d v t + 1 = ∏ ϵ ( x a d v t + α ⋅ s i g n ( ∇ x L ( f ( x a d v t , y ) ) ) ) (2) x^{t+1}_{adv} = \prod_\epsilon(x^t_{adv} + \alpha \cdot sign(\nabla{x}L(f(x^t_{adv}, y)))) \tag{2} xadvt+1=ϵ∏(xadvt+α⋅sign(∇xL(f(xadvt,y))))(2)
∏ ϵ ( ⋅ ) \prod_\epsilon(\cdot) ∏ϵ(⋅)是投影操作,与BIM不同的是,PGD允许步长 α > ϵ / T \alpha > \epsilon/T α>ϵ/T。
也有一些其他类型的白盒攻击,包括:基于稀疏性的攻击,例如 Jacobian-based Saliency Map Attack(JSMA),sparse attack, one-pixel attack和基于优化的方法,例如:Carlini and Wagner(C&W), elastic-net(EAD)。
黑盒攻击可以通过攻击一个代理模型或者使用梯度评估的方法结合查询目标模型的方法来生成。梯度评估方法评估了目标模型的梯度,是哟ing黑盒优化方法例如 Finite Differences(FD),或者 Natural Evolution Strategies(NES)。这些方法都需要一个大的对于目标模型的查询,不只是降低了有效性,而且潜在的暴露了攻击。替代的,黑盒攻击样本可以从代理的额模型来构造之后运用于攻击目标模型。景观白盒方法可以直接运用在代理模型,他们在黑盒设置下没有效果。几个迁移技术被提出来改啥黑盒攻击的迁移性。
Momentum Iterative Boosting(MI). MI结合了动量项到梯度中,来提升迁移性:
x a d v t + 1 = ∏ ϵ ( x a d v t + α ⋅ s i g n ( g t + 1 ) ) , g t + 1 = μ ⋅ g t + ∇ x L ( f ( x a d v t , y ) ) ∥ ∇ x L ( f ( x a d v t , y ) ) ∥ 1 (3) x^{t+1}_{adv} = \prod_\epsilon(x^t_{adv} + \alpha \cdot sign(g^{t+1})),\quad g^{t+1} = \mu \cdot g^t + \frac{\nabla{x}L(f(x^t_{adv}, y))}{\parallel{\nabla{x}L(f(x^t_{adv}, y))}\parallel_1} \tag{3} xadvt+1=ϵ∏(xadvt+α⋅sign(gt+1)),gt+1=μ⋅gt+∥∇xL(f(xadvt,y))∥1∇xL(f(xadvt,y))(3)
g t g^t gt是第 t t t-th次的对抗梯度, α = ϵ / T \alpha = \epsilon / T α=ϵ/T,是总的迭代次数 % 的步长大小, μ \mu μ是衰减因子, ∥ ⋅ ∥ 1 \parallel{\cdot}\parallel_1 ∥⋅∥1是 L 1 L_1 L1范数。
Diverse Input(DI), DI提出了通过使用随机变换的输入样本的梯度来构造对抗样本:
x a d v t + 1 = ∏ ϵ ( x a d v t + α ⋅ s i g n ( ∇ x L ( f ( H ( X a d v t ; p ) ) , y ) ) ) (4) x^{t+1}_{adv} = \prod_\epsilon(x^t_{adv} + \alpha \cdot sign(\nabla{x}L(f(H(X^t_{adv}; p)), y))) \tag{4} xadvt+1=ϵ∏(xadvt+α⋅sign(∇xL(f(H(Xadvt;p)),y)))(4)
H ( x a d v t ; p ) H(x^t_{adv}; p) H(xadvt;p)s是随机变换的函数,对于给定的概率 p p p在 x a d v t x^t_{adv} xadvt。
Translation Invariant(TI). TI目的在逃避鲁棒性训练的DNNs,通过代理模型生成对抗样本对于决策区域的少的敏感性。特别的,TI技术安乐一些列原始输入的变换版本的的梯度:
x a d v t + 1 = ∏ ϵ ( x a d v t + α ⋅ s i g n ( W ∗ ∇ x L ( f ( X a d v t ) , y ) ) ) (5) x^{t+1}_{adv} = \prod_\epsilon(x^t_{adv} + \alpha \cdot sign(W * \nabla{x}L(f(X^t_{adv}), y))) \tag{5} xadvt+1=ϵ∏(xadvt+α⋅sign(W∗∇xL(f(Xadvt),y)))(5)
W W W是一个预定义的内核,例如(均匀分布,线性,或者高斯)矩阵,大小(2k + 1)(2k + 1)(k是最大的像素量),这个内核的卷子等价于在 ( 2 k + 1 ) 2 (2k + 1)^2 (2k+1)2上梯度加权求和。
更近一步,有些其他的研究关注与干扰特征表达。例如:Activation Attack,派生于在一个特定的层上,在给定的图片,对于一个目标图片。为了产生较高的迁移目标模型。Intermediate Level Attack 尝试微调一个已经存在的对抗样本,获得更好的迁移性,通过增加在源模型一个预先指定的层上的扰动。
虽然,以上的迁移技术非常的有效,他们(包括白盒攻击,威胁模型或者代理模型或者目标模型,作为一个单一的组成部分,或者只是干扰网络的输出层。)换句话说,他们没有直接的考虑不同DNN架构的特征的影响。Li等人研究了对于样本模型的跳跃连接和丢弃层的使用,这产生了一系列巨大的幽灵网络,来执行集成攻击。这里,我们关注跳跃连接的架构属性,来自梯度的角度,没有修改或者生成额外的网络。
在这个部分,我们首先介绍跳跃连接和残差块的梯度分解。遵循那个思想,我们提出了 Skip Gradient Method(SGM),然后证明了,通过一个研究,跳跃连接的对抗样本的迁移特性。
在像ResNet那样的神经网络,一个跳跃连接使用身份映射绕过残差层,允许数据里从一个浅层的网路直接到后续的深沉的网络。因此,我们分解这个网络为一些列不同长度路径的集合。我们将一个跳跃连接和与他相关的残差块,作为一个网络的残差块。考虑三个连续的残差块(例如: z i + 1 = z i + f i + 1 ( z i ) z_{i+1} = z_i + f_{i+1}(z_i) zi+1=zi+fi+1(zi)),在一个残差网络中,从输入 z 0 z_0 z0到输出 z 3 z_3 z3,输出 z 3 z_3 z3解释如下:
Z 3 = z 2 + f 3 ( z 2 ) = [ z 1 + f 2 ( z 1 ) ] + f 3 ( z 1 + f 2 ( z 1 ) ) = [ z 0 + f 1 ( z 0 ) + f 2 ( z 0 + f 1 ( z 0 ) ) ] + f 3 ( ( z 0 ) + f 1 ( z 0 ) + f 2 ( z 0 + f 1 ( z 0 ) ) ) (6) \begin{array}{l} Z_3 &=& z_2 + f_3(z_2) = [z_1 + f_2(z_1)] + f_3(z1 + f_2(z_1)) \\ &=& [z_0 + f_1(z_0) + f_2(z_0 + f_1(z_0))] + f_3((z_0) + f_1(z_0) + f_2(z_0 + f_1(z_0))) \end{array}\tag{6} Z3==z2+f3(z2)=[z1+f2(z1)]+f3(z1+f2(z1))[z0+f1(z0)+f2(z0+f1(z0))]+f3((z0)+f1(z0)+f2(z0+f1(z0)))(6)
根据微积分的链式规则,损失后函数 L L L的梯度对应输入 z 0 z_0 z0,可以被分解如下:
∂ L ∂ z 0 = ∂ L ∂ z 3 ∂ z 3 ∂ z 2 ∂ z 2 ∂ z 1 ∂ z 1 ∂ z 0 = ∂ L ∂ z 3 ( 1 + ∂ f 3 ∂ z 2 ) ( 1 + ∂ f 2 ∂ z 1 ) ( 1 + ∂ f 1 ∂ z 0 ) \frac{\partial{L}}{\partial{z_0}} = \frac{\partial{L}}{\partial{z_3}} \frac{\partial{z_3}}{\partial{z_2}} \frac{\partial{z_2}}{\partial{z_1}} \frac{\partial{z_1}}{\partial{z_0}} = \frac{\partial{L}}{\partial{z_3}}(1 + \frac{\partial{f_3}}{\partial{z_2}}) (1 + \frac{\partial{f_2}}{\partial{z_1}}) (1 + \frac{\partial{f_1}}{\partial{z_0}}) ∂z0∂L=∂z3∂L∂z2∂z3∂z1∂z2∂z0∂z1=∂z3∂L(1+∂z2∂f3)(1+∂z1∂f2)(1+∂z0∂f1)
将这个例子拓展到一个具有 L L L个残差块的网络,梯度可以被分解为从 L L L-th到( l + 1 l + 1 l+1)-th( 0 ≤ l < L 0 \leq l < L 0≤l<L)个残差块,
∂ L ∂ x = ∂ L ∂ z L ∏ i = l L − 1 ( ∂ f i + 1 ∂ z i + 1 ) ∂ z l ∂ x (8) \frac{\partial{L}}{\partial{x}} = \frac{\partial{L}}{\partial{z_L}} \prod^{L-1}_{i = l}(\frac{\partial{f_{i+1}}}{\partial{z_i}} + 1) \frac{\partial{z_l}}{\partial{x}} \tag{8} ∂x∂L=∂zL∂Li=l∏L−1(∂zi∂fi+1+1)∂x∂zl(8)
图1证明了这个例子,一个ResNet-18网络最后3个残差块的分解( l = L − 3 l = L - 3 l=L−3)。
为了使用更多的跳跃连接的梯度,这里,我们引入了一个衰减参数到分解的梯度,来减少来自残差块的梯度。遵循公式8的分解,“跳跃”梯度:
∇ x l = ∂ L ∂ z L ∏ i = l L − 1 ( r ∂ f i + 1 ∂ z i + 1 ) ∂ z 0 ∂ x (9) \nabla{x}l = \frac{\partial{L}}{\partial{z_L}} \prod^{L-1}_{i = l}(r\frac{\partial{f_{i+1}}}{\partial{z_i}} + 1) \frac{\partial{z_0}}{\partial{x}} \tag{9} ∇xl=∂zL∂Li=l∏L−1(r∂zi∂fi+1+1)∂x∂z0(9)
z 0 − x z_0 - x z0−x是网络的输出, r ∈ ( 0 , 1 ] r \in (0, 1] r∈(0,1],是衰减参数。相应的,考虑一个干净的样本 x x x,模型DNN f f f,对抗样本可以通过如下迭代的构造:
x a d v t + 1 = ∏ ϵ ( x a d v t + α ⋅ s i g n ( ∂ L ∂ z L ∏ i = l L − 1 ( r ∂ f i + 1 ∂ z i + 1 ) ∂ z 0 ∂ x ) ) (10) x^{t+1}_{adv} = \prod_\epsilon(x^t_{adv} + \alpha \cdot sign(\frac{\partial{L}}{\partial{z_L}} \prod^{L-1}_{i = l}(r\frac{\partial{f_{i+1}}}{\partial{z_i}} + 1) \frac{\partial{z_0}}{\partial{x}})) \tag{10} xadvt+1=ϵ∏(xadvt+α⋅sign(∂zL∂Li=l∏L−1(r∂zi∂fi+1+1)∂x∂z0))(10)
SGM是一个普遍性的方法可以被在任何具有跳跃连接的网络上实现。在方向传播的过程中,SGM简单的乘上衰减参数对梯度,但他传给一个残差块的时候。因此,SGM不需要任何计算开销,非常的高效,即使在全链接的网络上例如DenseNets。 残差梯度的减少随着反向路径的累加,也就是说,底层的残差梯度比高层的残差梯度减少的更多。这是因为,相比于高层的特征,底层的特征已经被跳跃连接很好的保留了(见公式6特征分解)
为了证明跳跃连接的迁移性,我们实施了一个实验运行10步的PGD,和他们对应的SGM版本,为了研究黑盒攻击陈功率,有活没有控制跳跃连接。黑盒攻击通过8个不同的源(代理)模型ResNet(RN)-18/34/50/101/152和DenseNet(DN)-121/169/201,然后运用攻击一个Inception-v3目标模型。所有的模型都在ImageNet上面训练。我们随机选择了5000张ImageNet验证集上面的图片,这些图片被所有的模型分类正确,是哟哦能够最大的 L ∞ L_\infty L∞,扰动 ϵ = 16 \epsilon=16 ϵ=16来构造无目标攻击,这是一个典型的黑盒攻击设置。PGD的步长大小设置为 α = 2 \alpha = 2 α=2,SGM的衰减因子 r = 0.5 r = 0.5 r=0.5。
我们执行了攻击5次,使用不同的随机种子,表1显示了不同方法的成功率(迁移性)。可以看出,用我们的SGM操控跳跃连接,PGD的迁移性明显的超过所有的源模型。在所有的源模型除了RN18,改善都超过13%。没有SGM,对于Inception-v3目标模型的最好的迁移性是35.48%,这个PGD在DN201达到了,然而,这个被我们提出的SGM进一步改善到了65.38%(>29% 的收益)。这不是强调了跳跃连接就生成高迁移性的攻击的令人惊讶的特性,而且也表示了这个属性的重要性,例如只需要单个衰减因子的迁移性的上的巨大的提升。
表1: 攻击成功率(在5个随机运行的方差)黑盒攻击(无目标共哦)通过PGD构造,和他的“跳跃梯度”(SGM)版本,在不同的源模型上,攻击一个Inception-v3目标模型,最好的结果加粗显示
这8个模型可以解释为来自3个ResNet家族:(1)RN18/32是剧哟常规残差块的ResNets(2)RN50/101/152是具有"bottleneck"残差块的ResNets(3)DN121/169/201是全链接的ResNets。另一个重要的观察是具有同样的ResNet家族跳跃连接越多(例如:RN34 > RN18, RN152 > RN101 > RN50, DN201 > DN169 > DN121),构造的对抗样本越具有迁移性,特别的当通过我们的SGM控制跳跃连接,上面提出的关于许多顶尖的DNNs背后的设计原则:网络越深,像跳跃连接和 1x1的卷积技术。
在这个部分,我们比较了通过我们提出的SGM构造的对抗样本的迁移性,和现有的方法在ImageNet上,攻击不安全的和安全的模型。
Baselines. 我们比较了SGM和FGSM, PGD和其他的三个顶尖的迁移攻击(1)动量迭代(MI)(2)多样性输入(DI)(3)变换不变性(TI)。注意,TI攻击原本提出来是攻击安全的模型,经过这里我们将TI攻击了不安全和安全的模型。对于TI和我们的SGM,我们测试了单步攻击和迭代攻击版本,然后,一些其他的模型DI和MI只有迭代版本。对于不安全和安全的目标模型,迭代步长分别设置为10和20。对于所有的迭代攻击方法PGD,TI和我们的SGM,步长大小设置为 α = 2 \alpha=2 α=2。对于我们提出的SGM,衰减参数 r = 0.2 ( 0.5 ) r = 0.2(0.5) r=0.2(0.5) 和 r = 0.5 ( 0.7 ) r = 0.5(0.7) r=0.5(0.7),在ResNet模型和DesneNet源模型上,使用PGD(FGSM)。为了简单,我们利用了SGM来表示FGSM+SGM,单步攻击,PGD+SGM来表示多步攻击。已存在的其他的方法的参数配置和他们的原文一样。
Threat Model. 我们采用了黑盒威胁模型,通过攻击源模型产生的对抗样本,之后用于攻击目标模型。目标模型是一个与原来模型不同的架构(通过名字可以看出),除了当源模型和目标模型是同样的架构,我们直接使用源模型作为目标模型(等同于白盒设置)。攻击构造在随机选择的5000张ImageNet验证集上的图片,这些图片被所有的源模型分类正确,用不同的随机种子重复5次。对于所有的攻击方法,我们遵循标准的设置,来构造无目标攻击在最大的 L ∞ L_\infty L∞,扰动 ϵ = 16 \epsilon=16 ϵ=16,相应的像素值在[0, 255]。
Target Models. 我们考虑两个类型的目标模型(1)不安全的模型,使用传统的训练方式在ImageNet上训练(2)安全的模型使用对抗训练。对于不安全的模型,我们选者了7个顶尖的DNNs:VGG19(batch normalization), ResNet-152(RN-152), DesneNet-201(DN152), 154 layer squeeze-and-Excitation network(SE154), Inception V3(IncV3), Inception V4(Inc V4)和Inception-ResNet V2(IncResV2)。对于安全的目标模型,我们考虑3个鲁棒性训练的DNNs使用集成对抗训练:IncV3 e n s 3 _{ens3} ens3(ensemble of 3 IncV3 networks), IncV3 e n s 4 _{ens4} ens4(ensemble of 4 IncV3 networks)和IncResV2 e n s 3 _{ens3} ens3(ensemble of 3 Inc ResV2 networks),
Source Models. 我们选择8个不同的源模型来自ResNet家族:ResNet(RN)-18/34/50/101/152 和DenseNet(DN)-121/169/201。当源模型的输入的大小不满足目标模型,我们重新调整了构造的对抗样本的输入大小为目标模型的输入大小。对于VGG19,ResNet和DenseNet模型,图片被裁剪和缩放到224x244,对于Inception/Inception-ResNet模型,图片被裁剪和缩放到299x299。
我们实现研究了所有的攻击方法在7个不安全模型上面的迁移性,来找到最好的方法,可以生成最具有迁移的攻击在一个源模型上攻击所有的目标模型。
单步攻击的迁移性:单步攻击的迁移性是通过通过单步攻击的成功率来测量,见表2.这里,我们只显示了两个源模型的结果(1)RN-152,最好的ResNet源模型,在所有的目标模型上的平均成功率最高。(2)DN201,最好的DenseNet模型。注意,当源模型和目标模型是一样的,结果显示的是白盒攻击成功率。总体的,通过DN201构造的对抗本比RN152构造的对抗样本稍微有较好的迁移性。特别的对于我们的SGM方法。这是应为有~30多个跳跃连接可以被我们的SGM操控在DN201相比于RN152。为了比较FGSM和TI,在所有的测试场景下通过SGM,迁移性都得到了相当的改善,除了当从RN152迁移到VGG19/IncV3/IncV4,SGM被超过了TI。这表明,在不同架构的迁移(例如:ResNet -> VGG/Inception),采用变换可以帮助提高单步攻击扰动的迁移性。然而,TI的这个优点消失了,但具有的更多的跳跃连接,比如对于DN201源模型。
表2: 单步攻击的迁移性:黑盒攻击通过不同的方法构造的,在2个源模型攻击7个不安全的目标模型。最好的结果加粗。
多步攻击的迁移性:首先我们提供了一个详细的研究关于所有的攻击方法从8个源模型到3个具有代表性的不安全的目标模型的迁移性。我们之后将不同的攻击方法在两个最好的源模型上攻击所有的不安全的模型:最好的ResNet模型和最好的DenseNet模型。多步(例如:10步)迁移性来自所有的源模型到三个代表性的目标模型(VGG19,SE154和IncV3)见图2,在所有的迁移场景下,我们提出的SGM比现有的方法都好,在几乎所有的源模型除了RN18。对抗攻击通过SGM构造,变得更具有迁移性,但在源模型上有更多的跳跃连接,例如(从RN18到DN201)。一个有趣的观察是,当目标模型是浅层的,例如VGG19(图2的左边的图),浅层的源模型的迁移性更加的好,然而,当目标模型非常的深,例如(SE154和IncV3)(图2的中间和右边的图),越深的源模型往往具有更好的迁移性。我们怀疑这是因为目标模型和源模型的架构的相似性。注意到攻击VGG19目标模型,基线方法的成功率都轻微的下降,当ResNet源模型变得的更加的复杂的时候(从RN18到RN152)。在RN50和DN121的小的不同可能是架构的不同所导致的,在RN18/32,这是由常规的残差块构成的,RN50/101/152,是由“bottleneck”残差块构成的,DN121/169/201是由密集的跳跃连接构成的。
图2:通过不同的攻击方法在8个源模型上个攻击三个不安全的模型的黑盒攻击成功率:VGG19(左边),SE154(中间),和IncV3(右边)。
最好的源模型RN152和DN201攻击不安全的目标模型的结果见表3。提出的SGM攻击方法始终以很大的优势超过现有的方法在不同的目标模型上。特别的,对于 DN201 -> SE154(一个最近顶尖的在ImageNet上只有top-5 2.251%的错误率) 的迁移,SGM获得了72.03%的成功率,比MI好7%,DI好10%。
表2: 多步攻击的迁移率:不同方法在2个雨啊模型上构造的攻击7个不安全的目标模型的黑盒攻击成功率,最好的结果加粗显示。
结合现有的方法. 我们进一步证明了跳跃连接的对抗迁移性,可以被用来结合到现有的技术上。这个实验在DN201(最好的多步实验的源模型)。TI攻击包含了,因为他原本提出是攻击安全的模型并且,证明了改善PGD在不安全的模型上的攻击。结果见表4.MI和DI的迁移性被明显的改善到了11.98%~21.98%通过SGM。当结合MI和DI,SGM改善了顶尖的(MI+DI)的迁移性,以很大的优势,在所有的模型上。特别的,SGM将新的顶尖推到了至少80.52%,以前是只有71%。这证明了跳跃连接可以被控制来构造高迁移性的攻击对所有的顶尖的DNN模型。
表4: 结合现有的方法:在源模型DN201上攻击7个不安全的目标模型的攻击成功率,最好的结果加粗,+表示改善
我们SGM的成功率和其他的基线方法对于3个安全的目标模型,见图5.总体上,结合采用变换,特别设计的同比对抗训练的模型。TI获得了最好的迁移性,SGM是第二个最好的,相比于PGD,MI或者DI。当结合TI,SGM也改善了TI的攻击,子所有的迁移场景下,一个客观的进步。这表明,虽然单独控制跳跃连接,可能对于攻击安全的模型不是非常的充分,但是他可以使得现有的攻击更加的有力。一个有趣的发现是这里通过RN152构造的攻击比在DN201上构造的攻击更具有迁移性,这与攻击不能全的模型截然相反。
表5: 攻击安全模型的迁移性:通过RN152和DN201构造的多步攻击攻击成功率,攻击3个安全的模型,最好的结果加粗。
在这个部分,我们实施更多的实验来证明梯度衰减因子我们提出的SGM,探索潜在的使用SGM,对于基于集成的攻击和白盒攻击。
Effect of Residual Gradient Decay r r r: 我们测试了我们提出的SGM的迁移性,将衰减因子 r ∈ [ 0.1 , 1.0 ] r \in[0.1, 1.0] r∈[0.1,1.0]。当 r = 1.0 r = 1.0 r=1.0意味着在残差梯度上没有衰减。攻击通过在ImageNet验证集上5000张随机选择的图片进行10步SGM构造的。对于3个目标模型(VGG19,SE154和IncV3)的攻击结果在图3。可以观察到,趋势是非常连续的对于不同的目标模型。在DenseNet源模型上,衰减因子(增加衰减的强度)往往可以改善迁移性,知道他到达了一定的阈值。例如。 r = 0.5 r = 0.5 r=0.5。这是因为衰减鼓励攻击更多的关注与底层信息的迁移性,然而,如果所有的高层类别相关的信息被忽视,他被的非常的低效。在ResNet源模型,降低衰减因子可以连续的改善迁移性对与 r ≥ 0.2 r \geq 0.2 r≥0.2。相比于DesNet源模型,ResNets需要更多的残差权重的衰减。考虑到,跳跃连接揭示了更多的迁移信息,ResNets需要更多的惩罚在残差梯度上,来增加跳跃梯度的重要性,揭示了更多的源模型的迁移信息。
对于 r r r的选择,在没有知道目标模型的情况戏啊,从图3和附录C,我们可以看到 r r r的影响更多的和源模型由关系,而不是目标模型,也就是考虑一个源模型,最好的 r r r攻击不同的目标模型是一般相同的。这是的 r r r的选择变的非常的直接:在源模型上悬着最好的 r r r。例如,在图3,假设未知的目标模型是SE154(中间的图片),攻击者可以微调 r r r在源模型DN201上来攻击VGG19(左图)并且找到最好的 r = 0.5 r = 0.5 r=0.5。在DN201上的用 r = 0.5 r = 0.5 r=0.5的攻击确实获得了最好的攻击成功率在SE154目标模型上(和其他的目标模型)。
基于集成的攻击. 已经被证明了同时攻击多个源模型可以改善构造的对抗样本的迁移性,通常在实践中运用哦,我们遵循基于集成的策略,并且在一个集成的RN32, RN152和DN201上构造的攻击。基于以上的桃绿,我们相应的选择了最好的 r r r对于每个源模型:选择 r r r对于源模型RN32和RN152攻击目标DN201, r r r对于源DN201攻击目标RN152.攻击成功率(迁移性)在7个不安全的模型上和3个安全的模型上见表6和表7.与单个源模型的攻击类是,不安全的目标模型,SGM一个像是的表现,和DI。比啊其他的更好(除了两个“白盒”场景,对于RN152和DN201)。当结合其他的方法,例如:DI,他改善了成功率,以很大的优势。SGM获得了第二好的迁移性,集合TI,他依然是最好的,但结合TI,SGM改善了成功率到~10%,对于所有的目标模型。特别的,对于IncV3 e n s 3 _{ens3} ens3, TI+SGM获得了更高的成功率(87.65%)相比于在Dong的报告(84.8%)。尽管只有3个源模型在这里使用哦,三个源模型(例如:RN32,RN152和DN201)都是i不同的架构相对于IncV3目标模型,使用了6个源模型包括一个IncV3模型。从所有的层面分析,跳跃连接的存在是的做出更具有迁移性的攻击变的更加容易在实践中。
改善脆弱的白盒攻击. 除了黑盒攻击的迁移性,我们接下里证明了SGM也可以改善脆弱的(单步)白盒攻击FGSM。注意单步统计的SGM等价于FGSM加上残差梯度衰减。我们的实验在8个源模型上实施,白盒攻击陈工率在 L ∞ L_\infty L∞扰动 ϵ = 8 \epsilon = 8 ϵ=8(一个典型的白盒攻击设置),见图4a。可以观察到,使用SGM可以帮助改善对抗强度(例如:更高的成功率)。我们之后变换了扰动 ϵ ∈ [ 1 , 64 ] \epsilon \in [1, 64] ϵ∈[1,64],在图4b和图4c显示了在ResNet和DenseNet模型上的结果。相比于FGSM,SGM可以总是活的更好的对抗强度,除了当 ϵ \epsilon ϵ非常小的时候( ϵ ≤ 2 \epsilon \leq 2 ϵ≤2).当扰动变额无穷小,损失在空间中变的扁平,地图只想指向最右的方向。然而,当扰动的空间扩展,单步攻击变得不是非常的精确,因为在损失上的改变(成功率下降,当 ϵ \epsilon ϵ从4到16),在这个情况下,跳跃梯度包含了更多的地城信息,变得更加的可靠比起残差梯度(对于 ϵ ∈ [ 4 , 16 ] \epsilon \in [4, 16] ϵ∈[4,16]变的更加的重要)。另一个有趣的观察是,对抗强度下降,当模型变得更加的复杂的时候从RN18到RN152,后者DN121到DN201。这可能是因为损失比浅层模型的更加的陡峭,使得单步攻击更加的有效。
表6:多步攻击的迁移性对于集成的攻击:通过不同方法构造的在一个集成的3个源模型上(例如RN32,RN152和DN201)攻击7个不安全的目标模型,最好的记过加粗。
表7:基于集成的攻击对于安全模型的迁移性:一个集成的3个源模型上(例如RN32,RN152和DN201)的黑盒攻击成功率,最好的结果加粗。
在这篇文章中,我们证实了一个惊讶的属性,跳跃连接,被许多顶尖的像ResNet杨的圣经网络使用,也就是,他们可以很容易的被用来生成具有高迁移性的对抗样本。为了证明这个架构的“脆弱性”,我们提出了 **Skip Gradient Method(SGM)**来构造对抗样本,使用更多的来自跳跃连接的梯度而不是残差块的梯度,通过一个梯度上的衰减因子。我们实施了一些类的迁移攻击实验,对于8个源模型和10个目标模型,包含7个不安全的和3个安全的额模型,证明了通过SGM构造的攻击可以明显的活动更好的迁移性比起其他的现有的攻击方法。当结合现有的技术,SGM也可以提升顶尖的迁移性以一个大的优势。我们相信高的对抗迁移性,跳跃连接,是因为他门暴露了额外的底层的消息,这些信息在不同的DNNs上具有更多的迁移性。我们在这篇文章中的发现不只提醒了研究者在对抗研究中关注DNNs的架构的脆弱性,也对于DNN架构的设置提出了新的安全挑战。
Shu-Tao Xia,获得了国家重点研究开发项目2018YFB1800204、国家自然科学基金61771273、深圳市研发项目JCYJ20180508152204044、PCL未来区域网络大规模实验与应用研究基金的部分资助(PCL2018KP001)。
在这个部分,我们可视化了6个干净的图片和他们相迎的对抗样本,通过SGM,在或者ResNet-152或者DenseNet201上构建,见图5。这些可视化结果显示了生成的对抗样本是人类不可察觉的。
图5:6张干净的图片和他们相应的对抗样本的可视化。干净的图片子最上面一行,通过ResNet-152构建的对抗图片在中间这行,通过DenseNet构造的图片在最下面一行。所有的对抗图片都是通过我们提出的SGM(10-步)在最大的扰动 ϵ = 16 \epsilon = 16 ϵ=16下构造的。
在这个部分,我们比较了实验设置在之前的工作和我们的工作,讨论了一些小的差异在极限表现报告在我们的工作和之前的工作。
表8和9总结了单个源和纪恒的攻击的不同。在所有这些工作中,报告在Xie的更加的完整,我们报告的基线攻击的成功率(例如:MI和DI)越Xie的报告吻合,有时甚至更高。轻微的不同是由于实验设置的影响。表10总结了不同的源模型在极限攻击中的使用,表11总结了不同的数据集,测试图片的数量,输入图片的大小,最大 L ∞ L_\infty L∞扰动 ϵ \epsilon ϵ, 迭代次数 N N N和攻击步长 α \alpha α。与299x299图片大小相比,这里我们使用更加标准的图片大小 224x22,在ImageNet上。使用小的输入大小可能会降低现有的攻击方法的有效性。
表8:之前的报告攻击成功率基线单源攻击对于6个目标模型。“-”表示没有结果被报道。
表9:之前的报道攻击成功率基于集成的基线攻击对于6个目标模型。“-”表示没有结果被报道。
表10:使用已有的单源和基于集成的黑盒攻击。“Hold-out”表示是乐子hold-out目标模型的主,所有的剩余的模型使用源模型。组1由ResNet-v2-152, IncV3, incV4和IncRes,组2由ResNet-v2-152, IncV3, IncV4, IncRes, IncV3 e n s 3 _{ens3} ens3, IncV3 e n s 4 _{ens4} ens4, IncRes e n s 3 _{ens3} ens3
表11:不同的实验设置,我们的工作相比于先前的攻哟。“NeurIPS 2017”表明了数据库使用的是NeurIPS 2017对抗竞赛。 ϵ \epsilon ϵ最大的扰动。 N N N: 攻击迭代次数; α \alpha α:攻击步长。
另一个Liu的工作,81%的成功率被报道,基于优化的攻击,构造在ResNet-152对于目标VGG16,比我们的高65.52%,从ResNet-152对于VGG19.这是因为他们没有限制最大的扰动 ϵ \epsilon ϵ.均方误差(RMSD)他门攻击是22.83,这表明有许多的像素被扰动草果16像素。在我们的实验中,RMSD是6.29对于PGD,对于SGM是7.71,对于Mi是12.55.这是呼是另一个原因。注意,受限的小的扰动的优点是增加了对于人类观察着的不可察觉性。(见图5)为了适当的实现,我们使用了开源的代码和预训练的模型对于我们的实验,例如:AdverTroch。对于FGSM,PGD和MI,源/目标模型来自两个github仓库,对于所有的模型,我们重新实现了DI和TI用PyTorch。
在这个部分,我们研究了衰减因子 r r r在所有的目标模型上的迁移性。RN152和DN01作为源模型,目标模型是这些观察的趋势。见图6,所有的黑盒攻击模型,设置为同样的 r r r,使得 r r r的选择非常的简单。景观真实的目标模型是未知的,攻击者可以微雕这个参数对于像ResNet之类的神经网络,通过另一个模型,并且获得最好的选择。
图6:衰减参数的“迁移性”:通过10步SGM构造的黑盒攻击的成功率,在不同的参数 r ∈ [ 0.1 , 1.0 ] r \in [0.1, 1.0] r∈[0.1,1.0]上。图表明了不同的目标模型的结果。