论文研读2——对抗样本(Adversarial Example)综述(2021版)

论文地址:Advances in adversarial attacks and defenses in computer vision: A survey

这篇论文是2018年那篇的一个续集,其中涉及的大多数都可以被视为第一代探索核心算法和技术来欺骗深度学习或抵御对抗性攻击的技术,其中一些算法启发了大量的后续方法来进一步改进和适应核心攻击和防御技术。后续的第二代方法也更多地关注其他的视觉任务,而不仅仅是分类问题。

一、主要内容

论文集中于自2018年以来这一领域的进展,主要内容包括术语定义;更广泛的对抗性攻击性问题(包括第一代攻击,分类问题的最近攻击,除了分类问题之外的最近攻击,针对物理世界量身定制的攻击);关于存在对抗性例子的理论方面的相关贡献;最近的防御方法;未来该方向的前景与趋势。

二、术语定义(主要总结一下2018年那篇中未出现过的或需要补充的内容)

  • 攻击探测器(Attack detector):一种(仅限)检测一个图像是否是对抗样本的外部机制。(与2018年那篇定义内容相同,仅术语名字不同,2018年为Detector)
  • 黑盒攻击(Black-box attack):对抗样本是在不知道目标模型,更严格地说,是在并不知道训练过程和参数的情况下生成的。其中一种黑盒攻击允许使用查询来探测已部署的目标模型,称为基于查询的攻击,其他的黑盒攻击有时也被称为零知识攻击。
  • 数据成员资格攻击(Data membership attack):识别在模型的训练中是否使用了一个样本
  • 防御/对抗性防御(Defense/adversarial defense):(可以理解为是对含有对抗样本/对抗性信号的输入/模型做出反击或否定),包括用于诱导模型中固有鲁棒性的任何机制,或用来检测对抗性信号的外部/内部机制,或用来否定输入操作的对抗性图像处理。其中,对抗鲁棒性是关注于在模型诱导中诱导固有弹性技术的首选替代术语。
  • 数字攻击(Digital attack):假定对抗方/攻击方可以完全访问模型的实际数字输入。现有的对抗性攻击大多是此类,其反面是物理(世界)攻击
  • 逃避攻击/规避攻击/逃逸攻击(Evasion attack):攻击者在不改变目标机器学习系统的情况下,通过构造特定输入样本(对抗样本)以完成欺骗目标系统的攻击,一般发生在模型已经完成训练后预测时
  • 基于梯度的攻击(Gradient-based attacks):(最常见也是最容易成功的一种攻击方法),核心思想是:以输入图像为起点,在损失函数的梯度方向上修改图像。白盒攻击主要是基于梯度的。(通过查阅,执行此类攻击主要有两种方法:一次攻击(One-shot Attacks)——攻击者在梯度方向上只进行一次迭代,即迈出一步。如FGSM,T-FGSM;迭代攻击。骗特定图像上的目标模型
  • 插入攻击(Insertion attacks):在图像中插入一个对抗对象(或一个本地化的可见模式),如对抗补丁(有一篇论文中是将烤面包机补丁加入其中,成功将香蕉错分类为烤面包机。这种攻击的好处在于,攻击者不需要知道被攻击的图像是什么样子的,只需要将补丁加上,模型就会被欺骗,误分类到补丁对应的类别去,攻击危害远大于对抗样本)
  • 标签通用(对抗)攻击:针对特定类,对所选类别的所有样本都有显著影响的扰动
  • 模型提取攻击(Model extraction attack):攻击者恢复有关目标模型的信息(如分类边界)
  • 物理(世界)攻击(Physical(world) attacks):把数字世界中的对抗样本打印出来,发现模型同样不能正确识别,因此称为物理对抗样本,基于物理对抗样本的攻击就是物理攻击
  • 中毒攻击(Poisoning attack):篡改训练数据或算法来操纵训练过程
  • 基于查询的攻击(Query-based attack):一种黑盒攻击形式,攻击者能够查询目标模型并利用其输出来优化对抗性图像,基于决策边界的攻击就是该形式。
  • 基于分数的攻击(Score-based attack):需要知道模型的输出的置信度
  • 目标图像(Target image):由攻击者操纵的干净/原始图像
  • 目标模型(Target model):被攻击的模型
  • 目标标签(Target label):对抗样本中期望的不正确的标签,通常用于有针对性的攻击
  • 威胁模型(Thread model):设计和测试防御机制的假设所包含的集体对抗条件,从而验证对抗样本的有效性
  • 替代模型(Substitute model):由攻击者训练来复制目标模型的预测行为的模型,辅助模型是其同义词

三、对抗性的攻击:正式的问题

最常见的对抗攻击形式是在原始图像上添加微弱扰动(该扰动的添加要确保对原始图像的操作人类是难以察觉的,扰动ρ通常是范数有界的)使目标模型失效。但对抗攻击还有其他形式,如不受限制的对抗样本,不局限于操纵原始图像,也不关心范数界限,这一类的代表有对抗补丁。

对抗样本最初发现在图像分类任务中,采用加性扰动来启动攻击,绝大多数现有的攻击利用某种形式的加性扰动来操纵模型输出。图像对抗攻击的任务是使得通过攻击将输入标签变更为预先指定的不正确的标签,从而让分类器模型失效。特定图像的攻击也可能计算附加扰动ρ,从而造成对大量图像都分类错误,即普遍的扰动。

四、第一代攻击

The L-BFGS Attack

Szegedy等人通过首次发现深度学习对对抗性攻击的脆弱性

The FGSM Attack

核心概念是执行梯度上升,增加模型的损失,直至欺骗模型,是大量对抗性攻击的基础。如后续剔除符号函数发起的对抗攻击,Miyato用2-范数将梯度归一化;Kurakin等人用∞范数分析标准化;I-FGSM——FGSM的迭代变体;Dong等人在迭代优化过程中引入动量,即动量迭代 (MI-) FGSM;DI2-FGSM是直接构建在FGSM上的攻击的另一个示例,其主要思想是通过应用固定概率的图像变换,如随机调整大小和填充,使迭代FGSM的每次迭代中使用的输入多样化。

FGSM使一种基于梯度的一步方法,即在梯度方向上只进行一次迭代,通过计算范数有界的扰动来进行对抗攻击,重点关注扰动计算的“效率”(一次迭代,也是称为快速梯度法的原因),而不是实现高欺骗率。

The BIM & ILCM Attacks

BIM 建立在FGSM理论之上,但攻击本质是迭代FGSM算法,即在梯度方向上多次迭代。

目标类的对抗图像的对数概率可以通过修改BIM算法,进行增加减来实现对抗效果最大化。使用干净/原始图像中最不可能的类别的标签作为欺骗结果。因此该技术也称为迭代最不可能类方法(ILCM)

The PGD Attack

投影梯度下降(PGD)攻击被广泛认为是最强大的攻击之一。在基于FGSM的对抗性训练中观察到的“标签泄露”现象,在基于PGD的对抗性训练中不会发生。与干净/原始图像相比,当反向训练的模型最终对对抗样本具有更高的预测精度时,就会发生标签泄露。FGSM产生了有限的对抗样本,可能导致对抗性训练中的过拟合,从而导致标签泄露。使用PGD的对抗性训练——最强的一级攻击会自动使模型对较弱的一级攻击具有鲁棒性。作为一种迭代技术,PGD的计算成本很高。

JSMA & One-pixel Attack

外部约束的优化攻击

The DeepFool Attack

现在通常被认为是一种有效的特定于图像的对抗性攻击方法,而忽略了量化方面

The C&W Attack

基于优化。核心内容是计算范数限制的附加扰动,该攻击方式具有可转移性,严重削弱了防御性蒸馏的效力。该攻击对其他防御技术也很有效,通常被认为是一个非常强的攻击,但是,有着更高的计算成本

Universal Adversarial Prturbations

通用对抗性扰动:扰动与图像无关,可以在任何图像上高度欺骗模型。由于具有较高的欺骗率,且图像失真程度对人类视觉系统来说感知程度甚微,也称为准难以察觉的扰动。该扰动能够在不同的模型中很好地传递,该扰动下,迭代算法可以将数据点推出各自的类区域,同时通过反向投影将扰动进行累积

五、最新的对分类器的攻击

Advanced gradient based attacks——基于高级梯度的攻击

可以看作是第一代攻击的下游微调,如超像素引导,DNN,ODS等,旨在改进梯度升级的核心策略的对抗性攻击。几乎所有的白盒(和基于传输的)攻击都可以归为此类,银子这些攻击无意中非常直接地处理模型梯度。基于梯度的攻击,本质上是白盒攻击。

Black-box attacks——黑盒攻击

该小节主要讨论的是基于查询和基于迁移的攻击方向上的黑盒攻击

  • Query-based attacks:查询目标模型,利用其输出来构建对抗样本,目标是在保持欺骗模型的同时,实现对抗样本的最小失真,通常用于细化更强的不可感知的扰动。该类攻击中热门的是基于分数的攻击

    方法 内容
    利用决策边界几何,通过少量查询发起黑盒攻击 利用数据点附近决策边界的较小的“平均”曲率来估计法向量,沿着法向量添加p>=1的小p范数扰动
    定制的对抗性边界攻击(CBA) 通过历史查询,定制对抗性噪声分布
    贝叶斯优化 减少在低维潜在空间中搜索对抗样本地查询数量
    基于可传递嵌入的黑盒攻击(TREMBA) 从搜索空间角度出发

    CBA思想中,提高查询效率的技术有:早期原学习查询提取泛化技术;投影和概率驱动的黑盒攻击(PPBA,限制低频约束感知矩阵问题的解决空间);基于查询高效边界的黑盒攻击(QEBA,迭代地对源图像添加扰动,保留原始标签)

  • Transfer-based attacks:不需要查询黑盒模型,完全避免怀疑。核心思想是计算局部代理模型上的扰动。该思想上出现的方法主要目的是提出不同的策略,来放大扰动的内在可转移性

  • Unrestricted adversarial attacks(无限制对抗性攻击):

  • Backdoor attacks(后门攻击):

  • Model inversion(模型反演):

  • Adaptive attacks(自适应攻击):

  • Miscellaneous attacks(杂项攻击):

六、分类之外的攻击

主要介绍了分类问题以外的欺骗深度视觉模型的相关内容,尽管这些任务生成扰动的基本工具与欺骗分类器的相同,但任务的独特性导致了更专门的攻击算法,具体有以下方面。

Object detection and tracking——对象检测与跟踪

Reinforcement learning——强化学习

Image Captioning/Description——图像字幕/描述

Face recognition——人脸识别

Miscellaneous attacks——杂项

七、物理世界的攻击

主要介绍了一些物理世界中攻击目标检测和跟踪任务,以及人脸识别方面的内容,重点关注的领域是自动驾驶和通用目标检测与分类的攻击

八、超越对抗性目标

对抗攻击的主要目标是欺骗深度学习模型,导致结果不正确。但对抗攻击的影响不止于此,在提高模型性能,模型解释等方面,也利用了对抗性扰动。

九、对抗样本的存在性

主要讨论和叙述了解释深度学习的对抗脆弱性的原因,如输入特定的扰动,输入不可知的扰动等方面来实现更高的欺骗率和更好的可转移性等实验

十、防御对抗攻击

与2018年那篇思路类似,之后的防御方式也主要沿着这三条线发展:①修改模型,如修改网络;②修改输入以去除扰动;③在模型中添加外部模块(主要是检测器)

十一、讨论与总结

未来的一些技术或领域趋势。

模型梯度是对抗攻击的中心工具,但也有其他方法,如进化算法,颜色空间搜索已经被证明可以找到有效的对抗样本。最近的核心攻击方法通常旨在通过进一步减少扰动的规范和放大在黑河设置中对抗样本的可转移性来使攻击更具威胁性。

基于传统的黑盒攻击,目前(目标模型)的精度降低范围为40-50%,∞扰动规范为15/255,但这只针对无目标的欺骗。对于有目标的欺骗仍待提高。黑盒攻击可以在具有架构相似性的模型之间更好地转移。

物理世界中的3D对抗攻击发展速度远低于数字对抗攻击

长期问题:理解对抗样本的存在性,内在鲁棒模型,鲁棒-准确性权衡,对抗训练,认证防御等。

发展:视觉模型可以和其他许多模型相结合,扩展到多模型任务,如图像/视频字幕;视觉/语言模型

你可能感兴趣的:(论文研读,深度学习,对抗样本,对抗攻击和防御)