©作者 | 陈兆宇
单位 | 复旦大学ROILab
研究方向 | 对抗样本
论文来源:
ECCV 2022 Oral
论文链接:
http://arxiv.org/abs/2207.05382
原文代码:
https://github.com/yuyang-long/SSA
对于黑箱攻击,替代模型和受害者模型之间的差距通常很大,这表现为攻击性能较弱。观察到通过同时攻击不同的模型可以提高对抗样本的可迁移性,因此提出了模型增强的方法,通过使用变换的图像模拟不同的模型。然而,现有的空域变换并不能转化为明显不同的增强模型。
为了解决这个问题,作者提出了一种新的频谱模拟攻击(spectrum simulation attack),以制作更多的可迁移的对抗样本来攻击正常训练和防御模型。具体来说,作者对输入进行频谱变换,从而在频域上进行模型增强。作者从理论上证明,从频域得出的变换导致了多样化的频谱显著性图,这是提出的反映替代模型多样性的指标。值得注意的是,其方法一般可以与现有的攻击相结合。在 ImageNet 数据集上进行的大量实验证明了这个方法的有效性。
替代模型和受害者模型之间的差距通常很大,这表现为对抗样本的低可迁移性。虽然同时攻击不同的模型可以提高可迁移性,但收集大量不同的模型是很困难的,而且从头开始训练一个模型也很耗时。为了解决这个问题,人们提出了模型增强(model augmentation)。特别是,典型的模型增强方法旨在通过对输入进行保损转换来模拟各种模型。
简单总结,保损变换就是对图像做了变换之后,损失函数的数值没有太大变换。如果满足保损变换,可以视为是一个新模型(图片来自 SI-NI-FGSM)。在这之前常见的模型增强方法是 SI-FGSM:
其主要是直接对图像像素值变为原来的 1/2、1/4 和 1/8 等等,这样的情况下,loss 变化不大,因此这种缩放可以等价视为一个新模型。
所有现有的工作都是在域研究不同模型的关系,这可能忽略了它们之间的本质区别。为了更好地揭示模型之间的差异,作者从频域的角度引入频谱显著性图,因为图像在这个领域的表示有一个固定的模式,例如,图像的低频成分对应于它的轮廓。具体来说,频谱显著性图被定义为模型损失函数的梯度,与输入图像的频谱有关。
如下图(d∼g)所示,不同模型的频谱显著不同,这清楚地揭示了每个模型对同一频率成分有不同的兴趣。直观地说,不同的模型通常关注每个输入图像的类似空间区域,因为图像中关键物体的位置是固定的。相比之下,正如以前的工作所证明的那样,不同的模型在做决策时通常依赖于每个输入图像的不同频率成分。
受此启发,作者考虑调整频谱突出度图以模拟更多不同的替代模型,从而产生更多可转移的对抗样本。为此,作者提出了一种基于(离散余弦变换)DCT 和(反离散余弦变换)IDCT 技术的频谱变换,使输入图像多样化。本文从理论上证明,这种频谱变换可以产生不同的频谱显著性图,从而模拟出不同的替代模型。
如上图(a∼c)所示,在对不同的增强模型的结果进行平均后,只有本文产生的频谱显著性图能够覆盖其他模型的几乎所有结果。这表明本文提出的频谱转换可以有效地缩小替代模型和受害者模型之间的差距。
受此启发,作者转而从频域的角度来探索模型之间的关联性。具体来说,采用 DCT 将输入图像 x 从空间域转换到频率域。DCT 的数学定义(在下文中表示为 D(-))可以简化为:
为正定矩阵, 等于单位矩阵 。从形式上看,振幅高的低频成分往往集中在频谱的左上角,而高频成分则位于其余区域。显然,与空间域中图像的多样化表示相比,频域的模式更为固定。因此,作者提出了一个频谱显著性地图 来挖掘不同模型 的敏感点,其定义为:
其中 表示 IDCT,它可以将输入图像从频域恢复到空域。注意,DCT 和 IDCT 都是无损的,即 。
根据之前的可视化,作者观察到,感兴趣的频率成分通常因模型而异。因此,频谱显著性图可以作为一个指标来反映一个特定的模型。
上面的分析说明,如果能用与被攻击模型相似的频谱显著性图来模拟增强模型,那么替代模型和被攻击模型之间的差距就可以大大缩小,对抗样本就可以更容易迁移。
定理 1 表明,有可能以矩阵变换的形式使两个矩阵(注意频谱显著性图的本质也是一个矩阵)相等。然而,被攻击模型的频谱显著性图在黑箱设置下通常无法获得。此外,替代模型的频谱显著性图是高维的,不保证是可逆的。为了解决这个问题,作者提出了一个随机频谱变换 ,它将矩阵乘法分解为矩阵加法和哈达玛德积,以获得不同的频谱。具体来说,结合 DCT/IDCT, 可以表示为:
其中, 是哈达玛积,,。在应用 DCT 之前将图像分割成几个区块,对提高可迁移性并不奏效。因此,在实验中,本文在整个图像上应用 DCT。
从形式上看, 能够产生多样化的频谱显著性图,能够反映替代模型的多样性,同时,缩小与受害者模型的差距。如上图所示,以前提出的空域的变换(即 b 和 c)对产生多样化的频谱显著性地图不太有效,这可能导致较弱的模型增强。相比之下,通过本文提出的频谱变换,产生的频谱显著性图(即a)几乎可以覆盖其他模型的所有图。
从技术上讲,攻击主要可以分为三个步骤。首先,在第 3-6 行,将频谱变换 应用于输入图像 ,使从替代模型得到的梯度 与从新模型得到的结果大致相等,即模型增强。其次,在第 7 行,对 个增强的模型的梯度进行平均,以获得一个更稳定的更新方向 。最后,在第 8 行,更新迭代 的对抗样本 。
实验设置主要 NIPS 2017 Adversarial Competition:
https://github.com/cleverhans-lab/cleverhans/tree/master/cleverhans_v3.1.0/examples/nips17_adversarial_competition/dataset
攻击普通训练模型:
攻击防御模型:
消融这边主要关注下面的左图。为了验证频域变换(即频谱变换)比空域变换(即去除频谱变换中的 DCT/IDCT)更能缩小模型之间的差距,作者进行了消融研究。如下图(左)所示,无论攻击何种替代模型,基于频域变换制作的对抗样本的可迁移性始终高于空域变换的。
值得注意的是,在对 Inc-v3 进行攻击时,基于频域变换的攻击(即 S2I-FGSM)以 15.0% 的巨大优势超过了基于空域主变换的攻击。这令人信服地验证了频域可以捕捉模型之间更多的本质差异,从而产生比空间域更多样化的替代模型。
很好的工作,首次从频率角度分析对抗样本的可迁移性。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·