clean-label backdoor attacks 论文笔记

#论文笔记#

1. 论文信息

论文名称 Clean-Label Backdoor Attacks
作者 Alexander Turner(MIT)
会议/出版社 ICLR 2019
pdf 本地pdf 在线pdf
代码
trojanzoo-clean-label**** Label-Consistent
其他 这篇文章和 Label-Consistent Backdoor Attacks 基本相同

简介:这篇文章是最早做干净标签下的后门攻击的文章。作者在 BadNets 上进行了一系列的实验证明在以往的方法中直接使用 clean-label 会导致攻击的失败。为了实现在 clean-label 下的攻击,作者使用了 GAN-based interpolation 和 adversarial p-bounded perturbations 来增加分类器的训练难度,让分类器学习到更多 backdoor 的信息。

2. introduction

以往的后门攻击方法是在数据上加入 backdoor trigger,并且更改该数据的标签。这种做法存在的问题是,通过人工检查可以轻易识别出异常的标签。所以本文提出了一种无需改变加毒数据集即可实现后门攻击的方法,称之为 clean-label attack。

因为是进行 target attack,最简单的想法就是在 target 类中加入 backdoor trigger。但是作者目标类中加入 badnet 的 backdoor trigger 进行实验。发现这种进攻是无效的。

clean-label backdoor attacks 论文笔记_第1张图片

  • 由上图可以看出,当 Posion rate 达到 25% 时也只有 50% 的攻击成功率
  • 本文选择的 trigger 是来源于 badnet 的攻击方法

这是因为模型在学习时,只有一小部分图像存在 trigger ,并且模型更倾向于学习图片中的自然特征,所以 trigger 很容易被忽略。无法与 target label 建立起强的关联。

这篇文章为了解决这个问题,提了要让模型学习目标类的特征更加困难,使得模型学习目标类时更加依赖于 trigger,使得 trigger 更容易与 target label 关联。

文章提出了两种方法,第一种是基于 GAN 的方法,一种是基于 Adversarial examples 的方法

3. method

方法一:Latent space interpolation using GANs

通过生成模型去生成一些带有噪声目标类的样本,增大目标类的学习难度。

首先在训练集上训练一个生成器,生成模型可以学习到样本分布的 latent space

选取目标类 x 1 x_1 x1 , 非目标类 x 2 x_2 x2,通过插值的方法生成带有噪声的目标类图片

I G ( x 1 , x 2 , τ ) = G ( τ z 1 + ( 1 − τ ) z 2 ) , I_{G}\left(x_{1}, x_{2}, \tau\right)=G\left(\tau z_{1}+(1-\tau) z_{2}\right), \quad IG(x1,x2,τ)=G(τz1+(1τ)z2), where z 1 = E G ( x 1 ) , z 2 = E G ( x 2 ) z_{1}=E_{G}\left(x_{1}\right), z_{2}=E_{G}\left(x_{2}\right) z1=EG(x1),z2=EG(x2).

clean-label backdoor attacks 论文笔记_第2张图片

通过实验得出 τ \tau τ 的最佳值,既能让目标类难以学习,又能让人眼难以察觉

方法二:Adversarial examples bounded in lp-norm

最大化目标类样本和目标类标签,优化对抗扰动。使得目标类更难学习

x a d v = argmax ⁡ ∥ x ′ − x ∥ p ≤ ϵ ( x ′ , y , θ ) x_{a d v}=\underset{\left\|x^{\prime}-x\right\|_{p} \leq \epsilon}{\operatorname{argmax}}\left(x^{\prime}, y, \theta\right) xadv=xxpϵargmax(x,y,θ)

clean-label backdoor attacks 论文笔记_第3张图片

不同情况下的 backdoor image 的视觉效果对比

clean-label backdoor attacks 论文笔记_第4张图片

4. experiments

  • 数据集:cifar-10
  • 实验结果:
    clean-label backdoor attacks 论文笔记_第5张图片

你可能感兴趣的:(AI安全,论文阅读)