如何用一束激光欺骗神经网络

来自于CVPR2021的一篇文章"Adversarial Laser Beam: Effective Physical-World Attack to DNNs in a Blink"

这一个在物理世界的对抗样本攻击,以图像分类任务为例,对抗样本就是在正常的图像上添加一些人为的噪声,使得分类器出错,同时人眼无法分辨出这些噪声(肉眼还是能够正常分类的)。

有关于对抗样本攻击,可以参考我的这篇文章


如上图所示,在添加激光之后,相机所拍摄到的图片出现了变化,进而影响了分类器的结果。
大巴在红色激光的作用下被分类成两栖动物,路牌则被分类成洗手液自动发放器。

物理世界的对抗样本,顾名思义就是对真实的物理世界进行干扰,生成对抗样本。和传统的对抗样本不同的是,传统对抗样本,特别是白盒攻击,会利用模型生成一系列噪声。而物理世界的对抗样本通常很难构造出这样的噪声,受限于拍照的角度,环境的亮度等条件。

如何用一束激光欺骗神经网络_第1张图片
以往的工作通常都是打印出来一系列图片,而这个工作,降低了对抗样本的构造成本,只需要一个激光笔。

攻击步骤

文章所给出的激光攻击步骤十分简单,如下图所示:
如何用一束激光欺骗神经网络_第2张图片
激光由几个参数所决定:截距 b b b,射入角度 r r r, 波长 λ \lambda λ以及激光宽度 w w w

文章的攻击是这么做的,随机的挑选参数中的一个,然后生成对抗样本,如果分类置信度降低,则保留当前参数设置,整体上类似贪心的策略。

实验结果观察

如何用一束激光欺骗神经网络_第3张图片
可以看到并不是随着波长增加,攻击生成率增加,而是当波长到达580nm的时候到达一个峰值。

波长580nm表现为黄色

如何用一束激光欺骗神经网络_第4张图片
成功最高的两个配置为上图中右侧的两种情况,看上去似乎是激光覆盖面积越大攻击成功率越高。

能不能防住呢?

由于这种攻击不像传统的对抗样本可以简单生成,所以文章随机添加了一些样本进行训练,结果如下图所示:
如何用一束激光欺骗神经网络_第5张图片
可以看到一定程度上降低了成功率,攻击所需的次数也增大了。但是这种物理世界的对抗样本的威胁还是存在的,我们目前的模型仍然可能被其他手段欺骗,鲁棒性AI的目标仍然是一个开放的亟待解决的问题。

你可能感兴趣的:(模型安全,深度学习,机器学习,深度学习,安全,对抗样本)