1. Polishing Decision-Based Adversarial Noise With a Customized Sampling.
- 《通过自定义采样产生基于决策的对抗性噪声》
作为有效的黑盒对抗攻击,基于决策的方法通过查询目标模型来消除对抗噪声。 其中,边界攻击由于其强大的噪声压缩能力而被广泛应用,尤其是与基于传输的方法结合使用时。 边界攻击将噪声压缩分为几个独立的采样过程,并以恒定的采样设置重复每个查询。 本文演示了使用当前噪声和历史查询来定制边界攻击中的方差和采样平均值以消除对抗噪声的优势。 进一步揭示了边界攻击中初始噪声与压缩噪声之间的关系。 提出了定制对抗边界(CAB)攻击,该攻击使用当前噪声来建模每个像素的灵敏度,并使用定制采样设置来抛光每个图像的对抗噪声。 一方面,CAB使用当前噪声作为自定义多变量正态分布的先验信念。 另一方面,CAB使新采样远离历史失败的查询,以避免类似的错误。 在几个图像分类数据集上测量的实验结果强调了我们方法的有效性。研究了决策边界
2. Boosting the Transferability of Adversarial Samples via Attention
- 《通过注意力提高对抗样本的可转移性》
在这项工作中,作者提出了一种新颖的机制来缓解过度拟合的问题。 它计算模型对提取特征的关注程度,以规范对抗样本的搜索,从而优先考虑可能被各种体系结构采用的关键特征的损坏。 因此,它可以促进对抗样本的可传递性。 在ImageNet分类器上进行的大量实验证实了该策略的有效性及其在白盒和黑盒设置中优于最新基准的优越性。
3. Adversarial Examples Improve Image Recognition
- code链接
- 《对抗样本可提高图像识别度》
之前的观念认为,对抗样本是ConvNets的威胁,并且对对抗样本的训练会导致干净图像的准确性下降。本文提出了相反的观点,使用对抗样本能够提高准确性。
4. Enhancing Cross-Task Black-Box Transferability of Adversarial Examples With Dispersion Reduction
- 《通过减少色散以增强对抗样本的跨任务黑箱可转移性》
作者研究了对抗样本在各种实际计算机视觉任务中的可转移性,包括图像分类、目标检测、语义分割、显式内容检测和文本检测。 所提出的攻击减少了中间特征图的离散度,通过最小化特征图的离散度,图像变得“无特征”,克服了现有攻击的局限性,这些局限性需要特定于任务的损失函数和/或探测目标模型。 评估证明,该方法通过以较小的幅度大幅降低多个CV任务的性能而胜过现有的攻击。
5. Adversarial Camouflage: Hiding Physical-World Attacks With Natural Styles
- 《对抗伪装:利用自然风格掩盖物理世界的攻击》
利用风格转移技术,实现物理世界中的攻击。
6. On Isometry Robustness of Deep 3D Point Cloud Models Under Adversarial Attacks
- 《对抗攻击下深3D点云模型的等距稳健性》
本文提出了在3D对抗环境中进行黑盒攻击和白盒攻击,是展示等轴测度转换下当前3D深度学习模型的极端脆弱性的第一项工作。 一方面,此对抗性样本具有吸引人的特性,例如强大的可转移性。 另一方面,该方法为3D对抗学习的未来研究指出了有希望的方向。
7. DaST : Data-Free Substitute Training for Adversarial Attacks
- 《DaST:对抗攻击的无数据替代训练》
黑盒攻击模式下,当前的替身攻击(Substitute Attacks)需要使用预训练模型生成对抗性样本,再通过样本迁移性攻击目标模型。但是实际任务中,获得这样的预训练模型很困难。
本文提出一种替身模型训练方法——DaST,无需任何真实数据即可获得对抗性黑盒攻击的替身模型。DaST 利用专门设计的生成对抗网络(GAN)训练替身模型,并且针对生成模型设计多分支架构和标签控制损失,以处理 GAN 生成数据分布不匀的问题。然后,使用 GAN 生成器生成的样本训练分类器(即替身模型),样本的标签为目标模型的输出。
实验表明,相较基准替身模型,DaST 生产的替身模型可实现具有竞争力的性能。此外,为评估所该方法的实用性,本文在 Microsoft Azure 平台上攻击了在线机器学习模型,在线模型错误地分类了本文方法生成的 98.35% 的对抗性样本。据知,这是首个无需任何真实数据即可生成替身模型并用来产生对抗攻击的工作。
8. Exploiting Joint Robustness to Adversarial Perturbations
- 《利用联合鲁棒性去对抗攻击》
本文介绍了一个联合的一阶防御互动的实际可行方案。 在理论上和经验上都证明强加这些交互作用可以显着提高联合鲁棒性。作者提出了联合梯度相位和幅度正则化(GPMR)作为经验工具来规范成员之间的相互作用并均衡成员在集合决策中的作用。
9. GeoDA: A Geometric Framework for Black-Box Adversarial Attacks
- 《GeoDA:黑盒对抗攻击的几何框架》
该框架基于以下观察:深度网络的决策边界通常在数据样本附近具有较小的平均曲率。作者提出了一种有效的迭代算法,以生成对于 p ≥ 1 p≥1 p≥1的 l p l_p lp范数具有小的查询有效的黑盒扰动。 此外,对于 p = 2 p=2 p=2,理论证明,当决策边界的曲率有界时,该算法实际上收敛到最小 l 2 l_2 l2扰动。 实验结果证实,该黑盒攻击算法比最新算法性能更好,因为它产生的扰动较小,查询数量减少。
10. What Machines See Is Not What They Get: Fooling Scene Text Recognition Models With Adversarial Text Images
- 《机器看到的不是获得的东西:带有对抗性文本图像的傻瓜场景文本识别模型》
本文首次尝试攻击基于DNN的最新STR模型。 具体而言,提出了一种新颖且有效的基于优化的方法,该方法可以自然地集成到不同的顺序预测方案中。 将提出的方法应用于具有针对性和非针对性攻击模式的五个最新STR模型,对7个真实数据集和2个综合数据集的综合结果一致地显示了这些STR模型的脆弱性,并且性能显着下降 。
11. Physically Realizable Adversarial Examples for LiDAR Object Detection
- 《用于LiDAR目标检测的可物理实现的对抗样本》
现代自动驾驶系统严重依赖于深度学习模型来处理感官数据。尽管对抗扰动对自动驾驶构成了安全隐患,但由于大多数对抗攻击仅应用于2D平面图像,因此在3D感知方面的探索很少。本文解决了这个问题,并提出了一种方法来生成通用的3D对抗对象,以欺骗LiDAR检测器。特别是,作者证明了在任何目标车辆的顶部放置一个敌对物体,讷能够使车辆完全对LiDAR探测器隐藏,成功率为80%。作者还使用数据增强技术进行对抗性防御的初步研究。
12. One-Shot Adversarial Attacks on Visual Tracking With Dual Attention
- 《一目了然的视觉跟踪双重对抗攻击》
本文提出了一种新颖的单次对抗攻击方法,以生成用于自由模型单目标跟踪的对抗样本,该方法仅在初始帧中对目标补丁进行轻微扰动就会导致最新的跟踪器丢失后续帧中的目标。
13. Understanding Adversarial Examples From the Mutual Influence of Images and Perturbations
- 《从图像和扰动的相互影响中理解对抗样本》
本文建议将DNN的logit作为特征表示的向量,并利用它们分析基于Pearson相关系数(PCC)的两个独立输入的相互影响。作者利用这种向量表示法,通过解开干净的图像和对抗扰动来理解对抗样本,并分析它们之间的相互影响。所得结果为图像和普遍扰动之间的关系给出了新的视角:普遍扰动包含主要特征,图像对它们的行为像噪声一样。 这种观点导致了一种使用随机源图像生成目标通用对抗样本的新方法。作者称这是第一个在不利用原始训练数据的情况下完成有针对性的普遍攻击的任务。
14. Robust Superpixel-Guided Attentional Adversarial Attack
- 《强大的超像素引导注意力的对抗攻击》
15. ILFO: Adversarial Attack on Adaptive Neural Networks
- 《ILFO:对自适应神经网络的对抗性攻击》
本文研究了神经网络针对面向能量的攻击的鲁棒性。 具体来说,作者提出了针对常见类型的节能神经网络,即自适应神经网络(AdNN)的ILFO(基于中间输出的损失函数优化)攻击。AdNN通过根据输入的需求动态停用其模型的一部分来节省能耗。ILFO利用中间输出作为代理来推断输入与其相应能耗之间的关系。ILFO已显示出AdNN减少了多达100%的FLOP(每秒浮点操作),并且将最小噪声添加到输入图像中。 据了解,这是攻击AdNN能耗的首次尝试。
16. PhysGAN: Generating Physical-World-Resilient Adversarial Examples for Autonomous Driving
- 《PhysGAN:为自动驾驶生成具有物理世界弹性的对抗样本》
本文介绍的dPhysGAN,以连续的方式为自动驾驶系统生成了具有物理世界弹性的对抗样本,并通过广泛的数字和现实评估来展示PhysGAN的有效性和鲁棒性。
1. Achieving Robustness in the Wild via Adversarial Mixing With Disentangled Representations
- 《通过对抗的混合表示形式实现野外的鲁棒性》
对抗训练已被证明是防御对抗样本的有效方法。 但是,它的应用仅限于对定义的变换(如 l p l_p lp范数有界扰动)强制执行不变性。 这样的扰动不一定涵盖可能的真实世界变体,这些变体保留了输入的语义(例如照明条件的变化)。 在本文中,作者提出了一种新颖的方法来表达和形式化这些输入的现实世界转换的鲁棒性。 我们公式化的两个关键思想是:1)利用输入的分散表示来定义变化的不同因素;2)通过对抗性地组合不同图像的表示来生成新的输入图像。
我们使用StyleGAN模型来证明此框架的有效性。 具体来说,我们利用由StyleGAN模型计算出的分开的潜在表示来生成与真实世界变化(例如添加化妆或更改人的肤色)相似的图像扰动。 实验表明,此方法可以提高泛化能力,并减少虚假相关性的影响(例如,将“微笑”检测器的错误率降低21%)。物理防御
2. Single-Step Adversarial Training With Dropout Scheduling
- 《具有后退计划的单步对抗训练》
在对抗训练制度中,模型是通过添加了对抗样本的小批次来训练的。 为了减少计算复杂度,使用了快速简单的方法(例如,单步梯度上升)来生成对抗性样本。 结果表明,使用单步对抗训练方法训练的模型(使用非迭代方法生成对抗样本)具有伪鲁棒性。 此外,模型的这种伪鲁棒性归因于梯度掩蔽效应。 然而,现有的工作无法解释在单步对抗训练中何时以及为什么会出现梯度掩蔽效应。 在本项工作中,(i)证明了使用单步对抗训练方法训练的模型学会了防止生成单步对手,这是由于在训练的初始阶段模型的过度拟合,并且(ii)为了减轻这种影响,提出了一种具有后退计划的单步对抗训练方法。与使用现有的单步对抗训练方法训练的模型不同,使用建议的单步对抗训练方法训练的模型对单步和多步对抗攻击均具有鲁棒性,并且其性能与使用计算昂贵的多步对抗训练的模型相当。
3. Adversarial Vertex Mixup: Toward Better Adversarially Robust Generalization
- 《对抗性顶点混合:更好地对抗性强健的泛化》
在本文中,作者确定了对抗性特征过度拟合(AFO)可能会导致不良的对抗性鲁棒性泛化,并且证明了对抗训练会在鲁棒性泛化方面超出最佳点,从而在简单高斯模型中导致了AFO。考虑到这些理论结果,作者提出了软标签作为AFO问题的解决方案。此外,还提出了对抗性顶点混合(AVmixup),一种软标记的数据增强方法,用于改善对抗性强的泛化。通过在CIFAR10,CIFAR100,SVHN和Tiny ImageNet上进行的实验对理论分析进行补充,表明了AVmixup显着提高了鲁棒性的泛化性能,并减少了标准精度与对抗性鲁棒性之间的折衷。
4. Learn2Perturb: An End-to-End Feature Perturbation Learning to Improve Adversarial Robustness
- 《Learn2Perturb:端到端特征扰动学习,提高对抗鲁棒性》
本项研究提出了Learn2Perturb,一种用于改善DNN对抗鲁棒性的端到端特征扰动学习方法。 更具体地说,引入了新颖的扰动注入模块,这些模块集成在每一层中,用来扰动特征空间并增加网络中的不确定性。
5. Benchmarking Adversarial Robustness on Image Classification
- 《图像分类中的对抗鲁棒性基准测试》
本文建立了一个全面、严格、一致的基准来评估图像分类任务的对抗鲁棒性。 在简要回顾了许多代表性的攻击和防御方法之后,作者以两条鲁棒性曲线作为公正的评估标准进行了大规模实验,以充分了解这些方法的性能。 根据评估结果,得出了一些重要的发现,包括:1)模型之间的相对鲁棒性可能会在不同的攻击配置之间发生变化,因此鼓励采用鲁棒性曲线来评估对抗性鲁棒性;2)作为最有效的防御技术之一,对抗训练可以推广到不同的威胁模型中;3)基于随机的防御比基于查询的黑盒攻击更健壮。
6. Ensemble Generative Cleaning With Feedback Loops for Defending Adversarial Attacks
- 《带有反馈回路的集成生成式清洗,以防御对抗攻击》
在本文中,作者提出了一种新的方法,该方法称为带反馈回路的集成生成清洗(EGC-FL),用于有效防御深度神经网络。 提出的EGC-FL方法基于两个中心思想。 首先,我们将转换后的死区层引入防御网络,该层由正交变换和基于死区的激活函数组成,以破坏对抗攻击的复杂噪声模式。 其次,通过构建带有反馈回路的生成式清洁网络,我们能够对原始清洁图像进行多种估计。 然后,学习一个网络,将这组多样化的估计融合在一起,以恢复原始图像。 广泛的实验结果表明,我们的方法在白盒和黑盒攻击中都大大改进了现有技术。 使用SVHN数据集,对该方法进行白盒PGD攻击的分类准确性显着提高了29%以上,而对于具有挑战性的CIFAR-10数据集,则提高了39%以上。
7. Defending and Harnessing the Bit-Flip Based Adversarial Weight Attack
- 《基于对抗权重攻击的Bit-Flip的防御和利用》
对Bit-Flip Attacks进行了全面研究。
8. Detecting Adversarial Samples Using Influence Functions and Nearest Neighbors
- code链接
- 《使用影响函数和最近邻来检测对抗样本》
本文提出了一种检测对抗攻击的方法,使用影响函数来衡量每个训练样本对验证集数据的影响。从影响力分数中,可以找到任何给定验证样本的最有帮助的训练样本。在DNN的激活层上安装的 k k k近邻(k-NN)模型用于搜索这些支持训练样本的排名。从中观察到这些样本与正常输入的最近邻高度相关,而对抗性输入的相关性则弱得多。作者利用k-NN等级和距离训练了一个对抗检测器,并证明它能够成功区分对抗样本,并通过三个数据集获得了六种攻击方法的最新结果。