[论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)

Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)

  • 文章简介:
    作者提出一种全新的black-box攻击方法Curls&Whey,该方法可以是迭代轨迹多样化并且可以压缩noise的幅度,此外,将插值算法与迭代攻击相结合,显著降低了balck-box场景中目标攻击的难度

    • 类型: black-box(white-box也可)
    • Dataset: Imagenet. Tiny-Imagenet(used in NIPS 2018 Adversarial Vision Challenge)
    • Strength:即使对ensemble models和adversarial trained models也有非常强的可迁移性
    • norm:L2
  • Iterative attacks:

    • 优点:
      • iterative方法在攻击效果和生成对抗样本的效率上有比较好的平衡
      • iterative方法在white-box场景下表现非常好,已经可以保证100%可迁移性
    • 缺点:
      • 在black-box情况下,不同模型的决策边界是相差很远的。迭代轨迹一般来说是沿着梯度上升的方向单向搜索的,如果给予的noise量级比较小,可能跨越决策边界会存在困难。这也削弱了对抗样本的迁移能力。
      • 虽然noise大小决定了攻击方法的性能,但是迭代攻击产生的对抗样本包含一定的冗余噪声,仅通过增加迭代次数无法完全消除。
      • 在white-box条件下,由于在计算梯度时用到了高斯noise,所以作者提出的方法的noise量级会稍大与I-FGSM,但是会低于vr-IGSM,这说明Whey优化确实有用。
  • Contribution:

    • 提出了名为Curls iteration的black-box攻击方法,通过结合梯度上升和梯度下降的方向,其能增加迭代轨迹的多样性并且能生成可迁移性更强的对抗样本。
    • 提出了利用扰动鲁棒性来压缩noise量级的Whey optimization
    • 将Curl&Whey应用于targeted attack,显著地提升了iterative方法在black-box场景下的攻击效果(长期以来,黑盒场景中的targeted attack被认为是难以处理的,因为替代模型和目标模型之间在决策边界和分类空间上的差异阻碍了对抗样本从源类渗透到目标类)
  • Curl&Whey black-box attack

    • Curls iteration: 在subtitute model的loss function的梯度上升和梯度下降两个方向上都进行迭代,这样做得好处就是可能以更小的距离跨越target model的决策边界。从下图可以看到,一开始沿着梯度下降的方向,然后再沿着梯度上升的方向,即图中的紫色轨迹,显然比一直采用梯度上升的方向所需要的距离更小。并且有效地提高了对抗样本的多样性和可迁移性。
    [论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第1张图片

      其搜索过程如下( J J J表示交叉熵)

      1. 首先将原图往梯度下降的方向更新一步(公式9)

      2. 比较现有的交叉熵损失,如果这一步损失下降,则说明还没到local minima,则调整 g t + 1 g_{t+1} gt+1的方向

      3. 往现在的 g t + 1 g_{t+1} gt+1的方向更新一步,然后再跳到第2步

    [论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第2张图片

      在此基础上,作者在每一轮迭代前后分别引入了两种启发式策略。对于一幅图像,最接近的对抗样本更有可能分布在特征空间中大致相同的方向。因此,作者记录并更新了一张图像中所有对抗样本的平均方向 R ˉ \bar{R} Rˉ,并在第一步计算每一轮的梯度时添加一个指向这个方向的向量:

    [论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第3张图片

      公式(15)事实上是一个二分搜索的过程,这里用的嵌套的定义方式。直接用语言描述的话就是:定义原始图像 x x x为左端点,当前对抗样本 x ′ x' x为右端点,在这两点连成的线段上进行二分搜索,每次查询线段中点是否为对抗样本。若中点是对抗样本,则将中点设为新的右端点;否则将中点设为左端点。直到二分搜索次数用尽。

    [论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第4张图片

      算法流程图为

    [论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第5张图片
    • Whey optimization:

      • 目标是利用对抗性扰动的鲁棒性来压缩noise的量级,作者的做法是首先将对抗性扰动按像素值进行分组,并尝试滤除每组噪声。然后随机抽取对抗样本中的每个像素,逐步剔除冗余噪声。
      • 通常iterative方法会在迭代次数满足或者找到对抗样本后结束,但是对抗样本依然会存在冗余的noise,所以whey的目标就是最小化noise的同时还能满足他能成功攻击target model

        其中 x x x是原图, x ′ x^{'} x是对抗样本, x ○ x^{○} x是距离原图最接近的对抗样本。

      • whey优化保持了noise-squeezing amplitude和squeeze次数之间的平衡。一次压缩过多的噪音可能会使对抗样本回到原来的类别。然而,increment squeeze使得优化不可能在有限的查询数量内完成。一种折衷的解决方案是先将敌对噪声分成若干组,然后逐组降低noise量级,其做法为
      [论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第6张图片
      • 在完成上面那一步后,whey将进行第二步(fine-grained)squezze, 按照概率使噪声的某些pixel的值变为0,其做法如下
      • 总的算法流程为:不知道P中有没有排序过? 作者回复:"P是排过序的列表。通常做法是从像素值1迭代到255,因为噪声幅度小的像素点占多数。"
      [论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第7张图片
  • Diminishing Marginal Effect on Iteration Steps
    假设为了减小noise的量级,每一步的步长与总的迭代次数成反比。以I-FGSM为例,当迭代次数T增加1,则总的的noise量级为(原文描述为"when the number of iterations T increases by 1, the marginal gain for the decrease in the noise magnitude is", 翻译有点困难。 作者回复:这里的 marginal gain 借用了经济学中的“边际效益”概念,本意是“是指每新增(或减少)一个单位的商品或服务,它对商品或服务的收益增加(或减少)的效用”。在这里是指“在当前迭代步数下,当继续增加迭代步数时,总的噪声幅度能够进一步减少的量”。)

  总得来说,上面这个公式考虑了每一步的损失,并通过取平均值再进行做差的方法,使得下一步的迭代轨迹趋于一致、平滑,并逐渐收敛。如下图:可以发现迭代次数变多,跨越决策边界所需要的距离也越短,轨迹更光滑。

[论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第8张图片
  • targeted attacks
    在black-box场景下,进行targeted attack是非常困难的,因为target model和substitute model之间的梯度值是存在差异的。作者选择利用本文提出的方法进行target attack,其具体方法是

     1. 收集被target model误分类为target类别的且比较合理的对抗的样本 x T x^T xT

     2. 使用二分搜索(应该是类似于公式15中的BR),找一个合适的对抗样本 x 0 ′ x'_0 x0(需要满足 x 0 ′ x'_0 x0仍然被分为target类别)

     3. 使用 x 0 ′ x'_0 x0来指导 x x x进行第一次梯度上升,公式21看似是在进行梯度下降,但要注意的是 x 0 ′ x'_0 x0是对抗样本,其损失必然大于 x x x的损失,所以往 x 0 ′ x'_0 x0方向进行梯度下降等价于在对 x x x进行梯度上升

     4. 通过上面那一步,我们就将原始图像导向了目标类别,然后接下来执行Curl&Whey进行untargeted attacks
[论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第9张图片

   其中 0 < s < 1 0<s<1 0<s<1是进行完二分搜索后的插值系数。

   在black-box情况下的targeted attack情况下的效果:可以发现该方法能够做到非常小的L2距离

[论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第10张图片

   现有的三种Iterative攻击难以实现有针对性的错误分类。

   与boundary attack、pointwise attack、vanilla interpolation三种decision-based的攻击相比,该方法的噪声幅度也有了明显的降低。

[论文笔记]Curls & Whey: Boosting Black-Box Adversarial Attacks(CVPR 2019 Oral)_第11张图片

如果觉得我有地方讲的不好的或者有错误的欢迎给我留言,谢谢大家阅读(点个赞我可是会很开心的哦)~

你可能感兴趣的:(深度学习/机器学习)