Goodfellow、Elsayed团队又将对抗样本往前推进了一大步,产生了可以同时迷惑机器和人类的对抗样本,着实让人惊讶。主要是通过对机器识别模型产生迁移对抗样本,从而迷惑人类视觉,让我们看下具体是怎么做到的吧。
该论文做出了对抗样本的重要突破,提出了一系列问题,并综述了未来的工作。
Elsayed等通过模型的迁移对抗样本,生成了足以迷惑人类的对抗样本。来张猫狗图,paper的说法是,这张图实际是猫,但看起来像狗。
1. 对抗样本是如何工作的?CNN是如何工作的?大脑是如何工作的?
2. 从CNN到人类的迁移对抗攻击有效,是不是因为CNN在语义上的表达与大脑相近。
3. 迁移有效,是因为CNN与大脑在表征层具有更本质的相似性。
1. 视觉物体识别:困难在于定义客观地正确答案。
2. 研究人类在客观正确答案任务中的表现。
3. 研究对抗样本使得迁移到人类有效时的诱发特性。
4. 这些特性与真实世界特性的关联性。
5. 对大脑和神经网络有更好的理解。
人在定义事物时的客观性具有非度量性,是难以精确界定的,比如对paper中的猫狗图,有人就会更倾向认为是长得像猫的狗,而不是长得像狗的猫。
对抗样本—攻击者精心设计的诱使机器学习模型误判的输入数据,基本介绍见之前的博文,现在介绍下其中涉及的黑箱对抗样本生成技术。当攻击者无法获得攻击目标模型的信息时,如何通过迁移对抗样本来实现对抗攻击。
对抗样本的两点注意事项
1. 对抗样本是设计用来诱发误判的,而不是有别于人类判别。
2. 对抗样本没有限定微小的改动,也可以大的改动。
人类更容易受到认知偏差和光学错觉的误导,这既不是图像的微小扰动,也不是单纯的loss函数优化就可以模拟的。
迁移对抗样本背后所代表的含义?
transfer effect: 能够迷惑一个模型的对抗样本通常也能够迷惑另外一种结构的模型,即便那个模型用不同的训练集训练,甚至用不同的训练方法(CNN的对抗样本也能迷惑决策树)。
对抗样本的迁移效应使得黑箱对抗攻击成为可能。
机器识别和人类识别之间的迁移,为机器学习到人类识别的内在属性提供了可能。
迁移背后表明,总有本质的特征或者特性,被以共同或者相近的方式表达了。
key clues for this paper:多模型集成来生成对抗样本对人类具有实际可观察含义。
机器模型与人类识别系统还是具有相当的大的差距的。比如在视觉图像的焦点处理上,机器将整个图像都公平对待,而人眼则是集中到焦点处,其余地方则随着焦点的距离而呈线性降低模糊化。另外,机器将整个图像作为静态的一次读入,而大脑则是很活跃的扫描整个图像。
这一层,是将输入数据送入一个类似视网膜处理的模块,实现类人眼的焦点处理,对图像的每个空间位置,计算视网膜的离心比例(在弧度上)。重点在于构造一个低通滤波器。
θ(c)=tan−1(||c||2dviewer) θ ( c ) = t a n − 1 ( | | c | | 2 d v i e w e r )
dviewer d v i e w e r 表示观察者与屏幕间的距离(米), dhw d h w 是图像的高和宽(米)。
将其转换为弧度为单位的目标分辨率,
rrad(c)=min(αθ(c),β) r r a d ( c ) = m i n ( α θ ( c ) , β )
再将其转为为屏幕平面上的空间分辨率上,
rm(c)=rrad(c)(1+tan2(θ(c))) r m ( c ) = r r a d ( c ) ( 1 + t a n 2 ( θ ( c ) ) )
rpixel(c)=rm(c)∗[pixels−per−meter] r p i x e l ( c ) = r m ( c ) ∗ [ p i x e l s − p e r − m e t e r ]
两个点间的空间分辨率的区分转换为了相应的低通截断频率函数,以像素点为中心向外呈圆形扩散。
f(c)=πrpixel f ( c ) = π r p i x e l
作者精心挑选了几组实验数据pet group(dog and cat),Hazard group(spider and snake),Vegetables group(broccoli and cabbage),每个group都有多个pair对的数据(比如pair(A,B),A猫B狗),每个group作为一个coarse class。
生成对抗样本的模型,涉及Inception V3/V4, Inception ResNet V2, ResNet V2 50, ResNet V2 101, ResNet V2 152.
对抗样本的生成条件:模型们误判A为B,误判B为A(双向误判);并且对抗样本与真实样本间的无穷阶范数小于等于 ϵ ϵ 。