论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning

目录

    • Abstract 摘要
    • 1. Introduction 引言
      • 1.1 背景
      • 1.2 引入
    • 2. 相关工作 Related Work
      • 2.1 对抗样本攻击
      • 2.2 对抗样本防御 Adversarial Defenses
    • 3. 方法论 Methdology
      • 3.1 动机 Motivation
      • 3.2 Variance Tuning Gradient-based Attacks
      • 3.3 各种攻击之前的关系
    • 4. 实验
      • 4.1 实验准备
      • 4.2 攻击一个模型
      • 4.3 带有输入变换的攻击
      • 4.4 攻击一组模型
      • 4.5 攻击高级防御模型(Attack advanced defense models)
      • 4.6 超参消融实验
    • 5. 总结

论文作者: Xiaosen Wang    Kun He
作者单位: School of Computer Science and Technology, Huazhong University of Science and Technology
作者邮箱: {xiaosen,brooklet60}@hust.edu.cn
源代码: https://github.com/JHL-HUST/VT.

Abstract 摘要

  作者提出一种方法——varirance tuning,其增强了基于梯度迭代攻击方法,提高了攻击的迁移性。
  效果:基于梯度迭代攻击方法加入variance tuning在输入变换以及多模型的设置下,面对9种防御方法可以达到90.1%的平均攻击成功率,将当下最好攻击效果提高了85.1%。

1. Introduction 引言

1.1 背景

  近年来,对抗样本激起广泛的兴趣,一方面其可以检验模型的脆弱性,另一方面可以提供模型的鲁棒性。
  基于白盒攻击生成的对抗样本展现出很好的有效性,但是迁移性低,尤其是攻击使用了防御机制的模型。为解决此问题,当下研究聚焦于提高对抗样本的迁移性,如优化的梯度计算(Momentum,Nesterov’s accelerated gradient 等),攻击多种模型,采用各种输入变换(random resizing and padding, tranalstion, scale, admix, etc.)。然而,白盒攻击与基于迁移黑盒攻击仍有较大差距。

1.2 引入

  作者提出了一种新颖的方法——variance tuning。相较于已有的基于梯度的方法,该方法使用临近过去数据点的梯度变化来额外调节当下梯度。主要思想是在每次迭代时减少梯度的变化,从而在搜素过程中稳定更新方向并摆脱局部最优解。

2. 相关工作 Related Work

  1. 符号定义
符号 含义
x 原始图片
y 图片对应的标签
J ( x , y ; θ ) J(x,y;\theta) J(x,y;θ) 分类器的损失函数
x a d v x^{adv} xadv 对抗样本
|| ⋅ \cdot || p _p p p-范数距离

2.1 对抗样本攻击

  1. 对抗样本攻击包括基于梯度的方法(gradient-based methods)基于优化的方法(optimization-based methods)基于分数的方法(score-based methods)基于决策的方法(decision-based methods)
  2. 聚焦于攻击迁移性,作者简述了基于迁移攻击的两个分支:
  • 基于梯度的攻击(Gradient-based Methods): 应用高级的梯度计算来提高迁移性。如:
    • Fast Gradient Sign Method (FGSM)
      x a d v = x + ϵ ⋅ s i g n ( ∇ x J ( x , y ; θ ) ) x^{adv}=x+\epsilon \cdot sign(\nabla_x J(x,y;\theta)) xadv=x+ϵsign(xJ(x,y;θ))
    • Iterative Fast Gradient Sign Method (I-FGSM)
      x t + 1 a d v = x t a d v + α ⋅ s i g n ( ∇ x t a d v J ( x t a d v , y ; θ ) ) x 0 a d v = x x_{t+1}^{adv} = x_t^{adv} + \alpha \cdot sign(\nabla_{x_t^{adv}} J(x_t^{adv},y;\theta)) \\x_0^{adv}=x xt+1adv=xtadv+αsign(xtadvJ(xtadv,y;θ))x0adv=x
    • Momentum Iterative Fast Gradient Sign Method (MI-FGSM)
      g t + 1 = μ ⋅ t + ∇ x t a d v J ( x t a d v , y ; θ ) ∣ ∣ ∇ x t a d v J ( x t a d v , y ; θ ) ∣ ∣ 1 x t + 1 a d v = x t a d v + α ⋅ s i g n ( g t + 1 )   g_{t+1} = \mu \cdot_t + \frac{ \nabla_{x_t^{adv}} J(x_t^{adv},y;\theta)}{||\nabla_{x_t^{adv}} J(x_t^{adv},y;\theta)||_1} \\ x_{t+1}^{adv}=x_t^{adv} + \alpha \cdot sign(g_{t+1}) \ gt+1=μt+xtadvJ(xtadv,y;θ)1xtadvJ(xtadv,y;θ)xt+1adv=xtadv+αsign(gt+1) 
      w h e r e    g 0 = 0    a n d    μ    i s    t h e    d e c a y    f a c t o r where \; g_0=0 \; and \; \mu \; is \; the \; decay \; factor whereg0=0andμisthedecayfactor
    • Nesterov Iterative Fast Gradient Sign Method (NI-FGSM)
  • 输入变换(Input Transformations):
    • Diverse Input Method (DIM) : 随机变化大小和填充输入图片
    • Translation-Invariant Method (TIM) : 输入一组图片来计算梯度。为了减少梯度计算,Dong等人在小范围内移动图像,并通过将未变换图像(untranslated images)的梯度与核矩阵进行卷积来近似计算梯度。
    • Scale-Invariant Method (SIM) : 将一张图片缩放 1 / 2 i 1/2^{i} 1/2i倍数,从而得到一组图片,并计算其梯度(i为超参数)

2.2 对抗样本防御 Adversarial Defenses

  对抗训练(adversarial training) 是一种防御方法——其将对抗样本放入训练数据,从而提高训练出模型的鲁棒性。然而,该方法的缺点在于往往需要高计算代价,并且难以扩展到大规模数据集和复杂的神经网络。
相关研究:

  • Guo等人[9] 在将数据输入到模型前,对于输入进行了一系列的图像变换,用以消除对抗扰动的影响。
  • Xie等人[34] 对输入进行了随机调整大小和填充(random resizing and padding R&P) 来缓和对抗扰动的影响。
  • Liao等人[17] 提出训练一个高级表示降噪器( high-level representation denoiser HGD来净化输入图像。
  • Xu等人[36] 提出两种特征压缩方法: bit reduction(Bit-Red) 和 spatial smoothing,用以检测对抗样本。
  • 特征提取(Feature distillation FD)[20] 是防御对抗样本的一种基于JPEG的防御压缩框架。
  • ComDefend[12] 是一种防御对抗样本的端到端的图像压缩模型。
  • Cohen等人[5] 采用随机平滑(randomized smoothing RS) 来训练可靠的ImageNet 分类器。
  • Nasser 等人设计了一个神经表示净化器(neural representation purifier NRP) 模型 ,该模型基于自动获取监督(automatically derived supervision)来净化对抗样本。
  • Lin等人[18]融合了DIM,TIM,SIM等方法——Composite Transformation Method(CTM),是当下最强的基于迁移(transfer-based)的黑盒攻击方法。

3. 方法论 Methdology

3.1 动机 Motivation

  给定目标分类器 f f f和原始图片 x x x, 对抗样本攻击寻找对抗样本满足:
f ( x ; θ )   ≠   f ( x a d v ;   θ ) s . t . ∥ x − x a d v ∥   < ϵ f(x;\theta)\, \ne \, f(x^{adv}; \, \theta) \quad s.t. \quad \parallel x-x^{adv} \parallel \, < \epsilon f(x;θ)=f(xadv;θ)s.t.xxadv<ϵ
  对于白盒攻击,将其看做一个优化问题——即在 x x x周围寻找一个样本,使之能最大化目标分类器的损失函数:
x a d v   =   a r g m a x ∥ x ′ − x ∥ p   <   ϵ    J ( x ′ , y ; θ ) x^{adv}\, = \, argmax_{\parallel x' - x \parallel_p \, < \, \epsilon} \, \, J(x',y;\theta) xadv=argmaxxxp<ϵJ(x,y;θ)
  Lin等人[18]将对抗样本生成过程类比为标准神经网络的训练过程,即输入图像 x x x作为参数被训练,目标模型最为训练集。由此看,对抗样本的迁移性可以等价于正常训练模型的泛化能力。因而,已有的一些方法聚焦于更好的优化算法(如MI-FGSM, NI-FGSM),或数据增强(整合多种模型进行攻击,或输入变换)。
  作者将基于梯度迭代的对抗攻击算法看作一个随机梯度下降(SGD)的优化过程。作者指出SGD由于随机性致使方差较大,进而导致了慢收敛。对此,已经有多种方差降低技术(variance reduction)如SAG(stochastic average gradient), SDCA(stochastic dual coordinate ascent), SVRG(stochastic variance reduced gradient),此外, Nesterov’s accelerated gradient 可以加速收敛,提高攻击迁移性。
 
  作者方法variace tuning与SGD with variance reduction methods(SGDVRMS)的不同

  • variance tuning致力于生成高迁移性的对抗样本,而SGAVRMS目的在于加速收敛
  • variance tuning方法的gradient variance来自于输入x的近邻(neighborhood),而SGDVRMS使用的是训练集中的variance
  • variance tuning 更具泛化性,能用于提高MI-FGSM和NI-FGSM的性能。

3.2 Variance Tuning Gradient-based Attacks

  典型的基于梯度迭代的攻击(如I-FGSM) 在每次迭代过程中根据梯度的符号方向搜寻对抗样本,但容易陷入局部最优,或过拟合。MI-FGSM加入了动量,以稳定更新方向,逃离局部最优。NI-FGSM进一步采用了Netserov’s accelerated gradient 来迁移性。
  作者在上面基础上,提出利用之前数据的临近数据的梯度信息来调节当下数据的梯度
论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning_第1张图片
梯度变化(Gradient Variance)的定义
  给定分类器f,参数 θ \theta θ, 损失函数 J ( x , y ; θ ) J(x,y;\theta) J(x,y;θ), x 为图像, ϵ ′ \epsilon' ϵ为近邻范围的上限, 则梯度变化可定义为:
V ϵ ′ g ( x )   =   E ∥ x ′ − x ∥ p   <   ϵ ′ [ ∇ x ′ J ( x ′ , y ; θ ) ]   −   ∇ x J ( x , y ; θ ) V_{\epsilon'}^g(x) \ =\ \mathbb{E}_{\parallel x'-x\parallel_p \ < \ \epsilon'}[\nabla_{x'}J(x',y;\theta)] \ - \ \nabla_xJ(x,y;\theta) Vϵg(x) = Exxp < ϵ[xJ(x,y;θ)]  xJ(x,y;θ)
  其中, ϵ ′   =   β ⋅ ϵ \epsilon' \ = \ \beta \cdot \epsilon ϵ = βϵ, β \beta β是一个超参数,而 ϵ \epsilon ϵ是扰动数量级的上限。
  实际过程中,由于输入空间的连续性,上式无法计算。因而,作者通过采样的方式近似得到结果:
V ( x )   =   1 N ∑ i = 1 N ∇ x i J ( x i , y , θ )   −   ∇ x J ( x , y ; θ ) ( 7 ) V(x) \ = \ \frac{1}{N}\sum_{i=1}^N \nabla_{x^i} J(x^i,y,\theta) \ - \ \nabla_xJ(x,y;\theta) \quad \quad\quad (7) V(x) = N1i=1NxiJ(xi,y,θ)  xJ(x,y;θ)(7)
  上式中,V(x)为 V ϵ ′ g ( x ) V_{\epsilon'}^g(x) Vϵg(x) 简写, x i = x + r i x^i=x+r_i xi=x+ri, r i ∼ U [ − ( β ⋅ ϵ ) d , ( β ⋅   e p s i l o n ) d ] r_i \sim U[-(\beta \cdot \epsilon)^d,(\beta \cdot \ epsilon)^d] riU[(βϵ)d,(β epsilon)d]

3.3 各种攻击之前的关系

论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning_第2张图片

  使用了variance tuning方法的攻击,在方法名前面加入了"V",如VMI-FGSM。

  • β = 0 \beta=0 β=0时,VMI-FGSM和VNI-FGSM就退化为了MI-FGSM和NI-FGSM。
  • 如果衰减因子 μ = 0 \mu=0 μ=0,那么MI-FGSM和NI-FGSM就退化为了I-FGSM。
  • 如果迭代次数为1,那么I-FGSM就退化为lGSM。

4. 实验

4.1 实验准备

  • 数据集:从ILSVRC2012验证集中1000个类别随机挑选1000张图片。
  • 模型: Inception-v3 (Inc-v3) , Inception-v4 (Inc-v4), Inception-Resnet-v2 (IncRes-v2), Resnet-v2-101 (Res-101) 以及三个对抗训练的模型: I n c − v 3 e n s 3 Inc-v3_{ens3} Incv3ens3, I n c − v 3 e n s 4 Inc-v3_{ens4} Incv3ens4 I n c R e s − v 2 e n s IncRes-v2_{ens} IncResv2ens。 此外,作者还是用了九种先进的防御模型:HGD, R&P, NIPS-r3, Bit-Red, JPEG, FD, ComDefend, RS, NRP等。
  • 基准(Baselines): 作者采用MI-FGSM 和NI-FGSM,此外作者还将这两种方法整合了各种输入转换方法(DIM, TIM, SIM和CTM),表示为VM(N)I-DI-FGSM, VM(N)I-TI-FGSM, VM(N)I-SI-FGSM 和 VM(N)I-CT-FGSM。
  • 超参: 最大扰动 ϵ = 16 \epsilon=16 ϵ=16,迭代轮数T=10,则 每次迭代的大小 α = 1.6 \alpha=1.6 α=1.6。 对于MI-FGSM和NI-FGSM,衰减因子 μ = 1.0 \mu=1.0 μ=1.0。 对于DIM,变换概率设为0.5。对于TIM,采用 7 ∗ 7 7*7 77的高斯核。对于SIM,图像张数为5。 对于本方法, N = 20 , β = 1.5 N=20, \beta=1.5 N=20,β=1.5

4.2 攻击一个模型

论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning_第3张图片

4.3 带有输入变换的攻击

论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning_第4张图片

4.4 攻击一组模型

论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning_第5张图片

4.5 攻击高级防御模型(Attack advanced defense models)

论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning_第6张图片

4.6 超参消融实验

  对于近邻范围的上限 β \beta β, β = 3 / 2 \beta=3/2 β=3/2时攻击正常训练模型,迁移性能达到最高。
  对于近邻范围的采样数量N, N取20时,迁移性获得显著提升。再增大N,其增长缓慢。
论文笔记: 对抗样本 CVPR2021 Enhance Transferability of Adversarial Attacks through Variance Tuning_第7张图片

5. 总结

  Variance tuning可以显著提高已有攻击方法(如MI-FGSM, NI-FGSM等)的迁移性。它可以应用于任何基于梯度的迭代攻击。

你可能感兴趣的:(计算机视觉,深度学习)