Poison Ink: Robust and Invisible Backdoor Attack 论文笔记

1. 论文信息

论文名称 Poison Ink: Robust and Invisible Backdoor Attack
作者 Jie Zhang(中国科学技术大学)
会议/出版社 IEEE Transactions on Image Processing
pdf 在线pdf

2. introduction

文章提出了一种新的攻击方式称为“Poison Ink”,将毒性信息隐藏到图像的边缘信息中。通过对边缘信息进行加毒,生成更具有鲁棒性的后门模型。

Poison Ink 中的 trigger 具有以下的性质:

  1. 给模型加入后门,但是不影响原本任务的性能
  2. trigger 经过 data transform 也能保持其鲁棒性
  3. 这种 trigger 是隐形的

具有这种性质的原因:

  1. 改变的是 low-level structure information,the final decision of DNN [20] often depends on the object texture rather than the structure information
  2. 由于是分布在整个图像中的,所有对于数据增强更具鲁棒性
  3. 边缘信息属于图像的高频部分,更难被发现

3. method

模型流程图:

Poison Ink: Robust and Invisible Backdoor Attack 论文笔记_第1张图片

目标:训练出 Injection Network (IN),使用 Injection Network (IN)对数据加毒

Injection Network 的训练

  • trigger pattern generation

    1. 通过 Sobel 或者 Canny 提取图像的边缘信息
    2. 改变边缘的颜色

Poison Ink: Robust and Invisible Backdoor Attack 论文笔记_第2张图片

实验中加入的颜色:(R:240, G:120, B:20)

  • Injection network

    • 将干净图片和改变了颜色的边缘图像 concatenate

      Poison Ink: Robust and Invisible Backdoor Attack 论文笔记_第3张图片

    • 论文的图片没有画全,这一部分由 UNet 和 PatchGAN 组成

      通过实验部分描述知道:For trigger image generation, we simply adopt the UNet [42] and the PatchGAN [43] as the default network structure of IN and the discriminator D respectively

    • loss function

      • invisibility loss:

        L i n v = E x i c ∈ X c [ ∥ x i p − x i c ∥ k ] \mathcal{L}_{i n v}=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}}\left[\left\|x_{i}^{p}-x_{i}^{c}\right\|^{k}\right] Linv=xicXcE[xipxick]

        loss 的作用是减小 clean image 和 posion image 的差别(invisible)

      • adversarial loss:

        ℓ a d v = E x i c ∈ X c log ⁡ ( D ( x i c ) ) + E x i p ∈ X p log ⁡ ( 1 − D ( x i p ) ) \ell_{a d v}=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}} \log \left(D\left(x_{i}^{c}\right)\right)+\underset{x_{i}^{p} \in \mathbb{X}^{p}}{\mathbb{E}} \log \left(1-D\left(x_{i}^{p}\right)\right) adv=xicXcElog(D(xic))+xipXpElog(1D(xip))

        使用 adversarial discriminator 去判断该图片是 clean image 还是 posion image

        借鉴 GAN 的思想,生成和原图片接近的 posion image

  • Guidance extractor

    • Interference layer

      对 Injection network 生成的图片进行一系列的数据增强

      Poison Ink: Robust and Invisible Backdoor Attack 论文笔记_第4张图片

    • GE 的目标

      • clean image 通过 GE 应该生成 clean Map
      • posion image 通过 GE 应该生成 posion map
    • loss function

      • trigger extraction loss L t e L_{te} Lte
      • clean loss L c l L_{cl} Lcl

      L G E = L t e + λ ⋅ L c l , L t e = E x i p ∈ X p [ ∥ G E ( x i p ) − p i ∥ 2 ] L c l = E x i c ∈ X c [ ∥ G E ( x i c ) − C ∥ 2 ] \begin{aligned} \mathcal{L}_{G E} &=\mathcal{L}_{t e}+\lambda \cdot \mathcal{L}_{c l}, \\ \mathcal{L}_{t e} &=\underset{x_{i}^{p} \in \mathbb{X}^{p}}{\mathbb{E}}\left[\left\|G E\left(x_{i}^{p}\right)-\mathbf{p}_{i}\right\|_{2}\right] \\ \mathcal{L}_{c l} &=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}}\left[\left\|G E\left(x_{i}^{c}\right)-\mathbf{C}\right\|_{2}\right] \end{aligned} LGELteLcl=Lte+λLcl,=xipXpE[GE(xip)pi2]=xicXcE[GE(xic)C2]

  • the injection network IN and the guidance network GE are jointly trained

    L t o t a l = L I N + γ ⋅ L G E \mathcal{L}_{t o t a l}=\mathcal{L}_{I N}+\gamma \cdot \mathcal{L}_{G E} Ltotal=LIN+γLGE

4. experiments

4.1 数据集

dataset:CIFAR10 ImageNet GTSRB VGGFACE

选取了 50 个干净数据生成 posioned images

4.2 评价指标

  • “Clean Data Accuracy (CDA)”
  • “Attack Success Rate (ASR)”
  • “PSNR, SSIM and LPIPS”

你可能感兴趣的:(AI安全,论文阅读)