Backdoor Attack in the physical world

论文工作:

1. 验证了后门触发器的位置和外观对触发后门的影响。

2. 提出静态触发的攻击模式具有脆弱性,提出了一种简单但是高效的防御方式、

3. 基于静态触发器的特点,提出了一种增强后门攻击的方法来提高鲁棒性,并将其应用于物理领域。

后门触发的两个特征

定义1 (最小覆盖率)最小覆盖边界被定义为中毒图像覆盖(即所有非零α项)全部触发模式的最小边界。

Backdoor Attack in the physical world_第1张图片

        图1:后门触发器特性图示。红色方框表示最小覆盖边界的区域,红色像素代表触发位置

 定义2 (后门触发器的两个特性)触发器通过两个独立的特征来定义,包括位置和外观。具体来说,位置是由最小覆盖边界右下角的像素位置来定义,而外观是由颜色值和最小覆盖边界中非零α项所对应的像素具体排列表示。

实验设置

以Badnets为例来研究位置和外观的影响。

模型:VGG-19、ResNet-34

数据集:cifar-10

触发器:3*3的黑灰色方格(如图1)

位置的影响

当移动较小距离位置(2-3像素),攻击成功率会迅速从100%下降到50%以下,说明了触发器对位置信息是非常敏感的。

Backdoor Attack in the physical world_第2张图片

外观的影响

外观对攻击性能的影响可以通过形状和像素值,为方便起见,文章只研究了像素值的影响。触发器中只有两个像素值0和128。将128的值改为0到255的不同值。如图所示,ASR(攻击成功率)随着非零像素值的减少而急剧下降,而当非零像素值增加时相对不受影响。

Backdoor Attack in the physical world_第3张图片

 

变形启发的防御和增强攻击

后门攻击方式:BadNets、混合攻击、一致攻击

增强方式:左右翻转(Flip)、收缩后填充(ShrinkPad)。

ShrinkPad包括用几个像素(即缩小大小)收缩(基于双线性插值)和在收缩周围随即填充零。

baseline:fine-pruning,neural clense,auto-encoder based defense,standard training。

Backdoor Attack in the physical world_第4张图片

 实验结果:我们增强后门攻击的方式是有效的

物理世界的攻击

物理攻击:触发器印在实体上,然后有相机进行数字化欺骗模型。

补丁操作比像素操作更有可能发生在物体上。在cifar-10上随机选取一些被攻击的样本,拍摄相对位置不同的照片。BadNet+成功将所有数字预测到目标标签,而BadNets失败,因此此种方式也适用于物理世界的后门攻击。

Backdoor Attack in the physical world_第5张图片

 总结:本文提出了后门攻击静态触发器的两种不同特性,利用这些特性去增强后门攻击或者防御后门攻击,对于后门领域的研究具有引领作用。这篇文章为我提供了一种思路,我们可以跟进一步探索触发器的特性,来深入了解触发器的攻击、防御方式。

你可能感兴趣的:(安全,网络攻击模型,人工智能)