这篇论文是2018年那篇的一个续集,其中涉及的大多数都可以被视为第一代探索核心算法和技术来欺骗深度学习或抵御对抗性攻击的技术,其中一些算法启发了大量的后续方法来进一步改进和适应核心攻击和防御技术。后续的第二代方法也更多地关注其他的视觉任务,而不仅仅是分类问题。
论文集中于自2018年以来这一领域的进展,主要内容包括术语定义;更广泛的对抗性攻击性问题(包括第一代攻击,分类问题的最近攻击,除了分类问题之外的最近攻击,针对物理世界量身定制的攻击);关于存在对抗性例子的理论方面的相关贡献;最近的防御方法;未来该方向的前景与趋势。
最常见的对抗攻击形式是在原始图像上添加微弱扰动(该扰动的添加要确保对原始图像的操作人类是难以察觉的,扰动ρ通常是范数有界的)使目标模型失效。但对抗攻击还有其他形式,如不受限制的对抗样本,不局限于操纵原始图像,也不关心范数界限,这一类的代表有对抗补丁。
对抗样本最初发现在图像分类任务中,采用加性扰动来启动攻击,绝大多数现有的攻击利用某种形式的加性扰动来操纵模型输出。图像对抗攻击的任务是使得通过攻击将输入标签变更为预先指定的不正确的标签,从而让分类器模型失效。特定图像的攻击也可能计算附加扰动ρ,从而造成对大量图像都分类错误,即普遍的扰动。
Szegedy等人通过首次发现深度学习对对抗性攻击的脆弱性
核心概念是执行梯度上升,增加模型的损失,直至欺骗模型,是大量对抗性攻击的基础。如后续剔除符号函数发起的对抗攻击,Miyato用2-范数将梯度归一化;Kurakin等人用∞范数分析标准化;I-FGSM——FGSM的迭代变体;Dong等人在迭代优化过程中引入动量,即动量迭代 (MI-) FGSM;DI2-FGSM是直接构建在FGSM上的攻击的另一个示例,其主要思想是通过应用固定概率的图像变换,如随机调整大小和填充,使迭代FGSM的每次迭代中使用的输入多样化。
FGSM使一种基于梯度的一步方法,即在梯度方向上只进行一次迭代,通过计算范数有界的扰动来进行对抗攻击,重点关注扰动计算的“效率”(一次迭代,也是称为快速梯度法的原因),而不是实现高欺骗率。
BIM 建立在FGSM理论之上,但攻击本质是迭代FGSM算法,即在梯度方向上多次迭代。
目标类的对抗图像的对数概率可以通过修改BIM算法,进行增加减来实现对抗效果最大化。使用干净/原始图像中最不可能的类别的标签作为欺骗结果。因此该技术也称为迭代最不可能类方法(ILCM)
投影梯度下降(PGD)攻击被广泛认为是最强大的攻击之一。在基于FGSM的对抗性训练中观察到的“标签泄露”现象,在基于PGD的对抗性训练中不会发生。与干净/原始图像相比,当反向训练的模型最终对对抗样本具有更高的预测精度时,就会发生标签泄露。FGSM产生了有限的对抗样本,可能导致对抗性训练中的过拟合,从而导致标签泄露。使用PGD的对抗性训练——最强的一级攻击会自动使模型对较弱的一级攻击具有鲁棒性。作为一种迭代技术,PGD的计算成本很高。
外部约束的优化攻击
现在通常被认为是一种有效的特定于图像的对抗性攻击方法,而忽略了量化方面
基于优化。核心内容是计算范数限制的附加扰动,该攻击方式具有可转移性,严重削弱了防御性蒸馏的效力。该攻击对其他防御技术也很有效,通常被认为是一个非常强的攻击,但是,有着更高的计算成本
通用对抗性扰动:扰动与图像无关,可以在任何图像上高度欺骗模型。由于具有较高的欺骗率,且图像失真程度对人类视觉系统来说感知程度甚微,也称为准难以察觉的扰动。该扰动能够在不同的模型中很好地传递,该扰动下,迭代算法可以将数据点推出各自的类区域,同时通过反向投影将扰动进行累积
可以看作是第一代攻击的下游微调,如超像素引导,DNN,ODS等,旨在改进梯度升级的核心策略的对抗性攻击。几乎所有的白盒(和基于传输的)攻击都可以归为此类,银子这些攻击无意中非常直接地处理模型梯度。基于梯度的攻击,本质上是白盒攻击。
该小节主要讨论的是基于查询和基于迁移的攻击方向上的黑盒攻击
Query-based attacks:查询目标模型,利用其输出来构建对抗样本,目标是在保持欺骗模型的同时,实现对抗样本的最小失真,通常用于细化更强的不可感知的扰动。该类攻击中热门的是基于分数的攻击
方法 | 内容 |
---|---|
利用决策边界几何,通过少量查询发起黑盒攻击 | 利用数据点附近决策边界的较小的“平均”曲率来估计法向量,沿着法向量添加p>=1的小p范数扰动 |
定制的对抗性边界攻击(CBA) | 通过历史查询,定制对抗性噪声分布 |
贝叶斯优化 | 减少在低维潜在空间中搜索对抗样本地查询数量 |
基于可传递嵌入的黑盒攻击(TREMBA) | 从搜索空间角度出发 |
CBA思想中,提高查询效率的技术有:早期原学习查询提取泛化技术;投影和概率驱动的黑盒攻击(PPBA,限制低频约束感知矩阵问题的解决空间);基于查询高效边界的黑盒攻击(QEBA,迭代地对源图像添加扰动,保留原始标签)
Transfer-based attacks:不需要查询黑盒模型,完全避免怀疑。核心思想是计算局部代理模型上的扰动。该思想上出现的方法主要目的是提出不同的策略,来放大扰动的内在可转移性
Unrestricted adversarial attacks(无限制对抗性攻击):
Backdoor attacks(后门攻击):
Model inversion(模型反演):
Adaptive attacks(自适应攻击):
Miscellaneous attacks(杂项攻击):
主要介绍了分类问题以外的欺骗深度视觉模型的相关内容,尽管这些任务生成扰动的基本工具与欺骗分类器的相同,但任务的独特性导致了更专门的攻击算法,具体有以下方面。
主要介绍了一些物理世界中攻击目标检测和跟踪任务,以及人脸识别方面的内容,重点关注的领域是自动驾驶和通用目标检测与分类的攻击
对抗攻击的主要目标是欺骗深度学习模型,导致结果不正确。但对抗攻击的影响不止于此,在提高模型性能,模型解释等方面,也利用了对抗性扰动。
主要讨论和叙述了解释深度学习的对抗脆弱性的原因,如输入特定的扰动,输入不可知的扰动等方面来实现更高的欺骗率和更好的可转移性等实验
与2018年那篇思路类似,之后的防御方式也主要沿着这三条线发展:①修改模型,如修改网络;②修改输入以去除扰动;③在模型中添加外部模块(主要是检测器)
未来的一些技术或领域趋势。
模型梯度是对抗攻击的中心工具,但也有其他方法,如进化算法,颜色空间搜索已经被证明可以找到有效的对抗样本。最近的核心攻击方法通常旨在通过进一步减少扰动的规范和放大在黑河设置中对抗样本的可转移性来使攻击更具威胁性。
基于传统的黑盒攻击,目前(目标模型)的精度降低范围为40-50%,∞扰动规范为15/255,但这只针对无目标的欺骗。对于有目标的欺骗仍待提高。黑盒攻击可以在具有架构相似性的模型之间更好地转移。
物理世界中的3D对抗攻击发展速度远低于数字对抗攻击
长期问题:理解对抗样本的存在性,内在鲁棒模型,鲁棒-准确性权衡,对抗训练,认证防御等。
发展:视觉模型可以和其他许多模型相结合,扩展到多模型任务,如图像/视频字幕;视觉/语言模型