论文名称 | Poison Ink: Robust and Invisible Backdoor Attack |
---|---|
作者 | Jie Zhang(中国科学技术大学) |
会议/出版社 | IEEE Transactions on Image Processing |
在线pdf |
文章提出了一种新的攻击方式称为“Poison Ink”,将毒性信息隐藏到图像的边缘信息中。通过对边缘信息进行加毒,生成更具有鲁棒性的后门模型。
Poison Ink 中的 trigger 具有以下的性质:
具有这种性质的原因:
目标:训练出 Injection Network (IN),使用 Injection Network (IN)对数据加毒
trigger pattern generation
实验中加入的颜色:(R:240, G:120, B:20)
Injection network
将干净图片和改变了颜色的边缘图像 concatenate
论文的图片没有画全,这一部分由 UNet 和 PatchGAN 组成
通过实验部分描述知道:For trigger image generation, we simply adopt the UNet [42] and the PatchGAN [43] as the default network structure of IN and the discriminator D respectively
loss function
invisibility loss:
L i n v = E x i c ∈ X c [ ∥ x i p − x i c ∥ k ] \mathcal{L}_{i n v}=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}}\left[\left\|x_{i}^{p}-x_{i}^{c}\right\|^{k}\right] Linv=xic∈XcE[∥xip−xic∥k]
loss 的作用是减小 clean image 和 posion image 的差别(invisible)
adversarial loss:
ℓ a d v = E x i c ∈ X c log ( D ( x i c ) ) + E x i p ∈ X p log ( 1 − D ( x i p ) ) \ell_{a d v}=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}} \log \left(D\left(x_{i}^{c}\right)\right)+\underset{x_{i}^{p} \in \mathbb{X}^{p}}{\mathbb{E}} \log \left(1-D\left(x_{i}^{p}\right)\right) ℓadv=xic∈XcElog(D(xic))+xip∈XpElog(1−D(xip))
使用 adversarial discriminator 去判断该图片是 clean image 还是 posion image
借鉴 GAN 的思想,生成和原图片接近的 posion image
Guidance extractor
Interference layer
对 Injection network 生成的图片进行一系列的数据增强
GE 的目标
loss function
L G E = L t e + λ ⋅ L c l , L t e = E x i p ∈ X p [ ∥ G E ( x i p ) − p i ∥ 2 ] L c l = E x i c ∈ X c [ ∥ G E ( x i c ) − C ∥ 2 ] \begin{aligned} \mathcal{L}_{G E} &=\mathcal{L}_{t e}+\lambda \cdot \mathcal{L}_{c l}, \\ \mathcal{L}_{t e} &=\underset{x_{i}^{p} \in \mathbb{X}^{p}}{\mathbb{E}}\left[\left\|G E\left(x_{i}^{p}\right)-\mathbf{p}_{i}\right\|_{2}\right] \\ \mathcal{L}_{c l} &=\underset{x_{i}^{c} \in \mathbb{X}^{c}}{\mathbb{E}}\left[\left\|G E\left(x_{i}^{c}\right)-\mathbf{C}\right\|_{2}\right] \end{aligned} LGELteLcl=Lte+λ⋅Lcl,=xip∈XpE[∥GE(xip)−pi∥2]=xic∈XcE[∥GE(xic)−C∥2]
the injection network IN and the guidance network GE are jointly trained
L t o t a l = L I N + γ ⋅ L G E \mathcal{L}_{t o t a l}=\mathcal{L}_{I N}+\gamma \cdot \mathcal{L}_{G E} Ltotal=LIN+γ⋅LGE
dataset:CIFAR10 ImageNet GTSRB VGGFACE
选取了 50 个干净数据生成 posioned images