对抗样本之人机迁移:Adversarial Examples that Fool both Human and Computer Vision

前言

  Goodfellow、Elsayed团队又将对抗样本往前推进了一大步,产生了可以同时迷惑机器和人类的对抗样本,着实让人惊讶。主要是通过对机器识别模型产生迁移对抗样本,从而迷惑人类视觉,让我们看下具体是怎么做到的吧。

breakout、question、future work

  该论文做出了对抗样本的重要突破,提出了一系列问题,并综述了未来的工作。

Breakout

  Elsayed等通过模型的迁移对抗样本,生成了足以迷惑人类的对抗样本。来张猫狗图,paper的说法是,这张图实际是猫,但看起来像狗。

对抗样本之人机迁移:Adversarial Examples that Fool both Human and Computer Vision_第1张图片

question

  1. 对抗样本是如何工作的?CNN是如何工作的?大脑是如何工作的?
  2. 从CNN到人类的迁移对抗攻击有效,是不是因为CNN在语义上的表达与大脑相近。
  3. 迁移有效,是因为CNN与大脑在表征层具有更本质的相似性。

future work

  1. 视觉物体识别:困难在于定义客观地正确答案。
  2. 研究人类在客观正确答案任务中的表现。
  3. 研究对抗样本使得迁移到人类有效时的诱发特性。
  4. 这些特性与真实世界特性的关联性。
  5. 对大脑和神经网络有更好的理解。
  人在定义事物时的客观性具有非度量性,是难以精确界定的,比如对paper中的猫狗图,有人就会更倾向认为是长得像猫的狗,而不是长得像狗的猫。

Bloack Box Adversarial Example Construction

  对抗样本—攻击者精心设计的诱使机器学习模型误判的输入数据,基本介绍见之前的博文,现在介绍下其中涉及的黑箱对抗样本生成技术。当攻击者无法获得攻击目标模型的信息时,如何通过迁移对抗样本来实现对抗攻击。
  对抗样本的两点注意事项
  1. 对抗样本是设计用来诱发误判的,而不是有别于人类判别。
  2. 对抗样本没有限定微小的改动,也可以大的改动。
  人类更容易受到认知偏差和光学错觉的误导,这既不是图像的微小扰动,也不是单纯的loss函数优化就可以模拟的。
  迁移对抗样本背后所代表的含义?
  transfer effect: 能够迷惑一个模型的对抗样本通常也能够迷惑另外一种结构的模型,即便那个模型用不同的训练集训练,甚至用不同的训练方法(CNN的对抗样本也能迷惑决策树)。
  对抗样本的迁移效应使得黑箱对抗攻击成为可能。
  机器识别和人类识别之间的迁移,为机器学习到人类识别的内在属性提供了可能。
  迁移背后表明,总有本质的特征或者特性,被以共同或者相近的方式表达了。
  key clues for this paper:多模型集成来生成对抗样本对人类具有实际可观察含义。

How to Trans from Machine to Human

  机器模型与人类识别系统还是具有相当的大的差距的。比如在视觉图像的焦点处理上,机器将整个图像都公平对待,而人眼则是集中到焦点处,其余地方则随着焦点的距离而呈线性降低模糊化。另外,机器将整个图像作为静态的一次读入,而大脑则是很活跃的扫描整个图像。

retinal layer

  这一层,是将输入数据送入一个类似视网膜处理的模块,实现类人眼的焦点处理,对图像的每个空间位置,计算视网膜的离心比例(在弧度上)。重点在于构造一个低通滤波器。
   θ(c)=tan1(||c||2dviewer) θ ( c ) = t a n − 1 ( | | c | | 2 d v i e w e r )
   dviewer d v i e w e r 表示观察者与屏幕间的距离(米), dhw d h w 是图像的高和宽(米)。
  将其转换为弧度为单位的目标分辨率,
   rrad(c)=min(αθ(c),β) r r a d ( c ) = m i n ( α θ ( c ) , β )
  再将其转为为屏幕平面上的空间分辨率上,
   rm(c)=rrad(c)(1+tan2(θ(c))) r m ( c ) = r r a d ( c ) ( 1 + t a n 2 ( θ ( c ) ) )
   rpixel(c)=rm(c)[pixelspermeter] r p i x e l ( c ) = r m ( c ) ∗ [ p i x e l s − p e r − m e t e r ]
  两个点间的空间分辨率的区分转换为了相应的低通截断频率函数,以像素点为中心向外呈圆形扩散。
   f(c)=πrpixel f ( c ) = π r p i x e l

对抗样本之人机迁移:Adversarial Examples that Fool both Human and Computer Vision_第2张图片

Experiment Setup

  作者精心挑选了几组实验数据pet group(dog and cat),Hazard group(spider and snake),Vegetables group(broccoli and cabbage),每个group都有多个pair对的数据(比如pair(A,B),A猫B狗),每个group作为一个coarse class。
  生成对抗样本的模型,涉及Inception V3/V4, Inception ResNet V2, ResNet V2 50, ResNet V2 101, ResNet V2 152.
  对抗样本的生成条件:模型们误判A为B,误判B为A(双向误判);并且对抗样本与真实样本间的无穷阶范数小于等于 ϵ ϵ 。  

min{log(F(ytarget|Xadv))} m i n { − log ⁡ ( F ( y t a r g e t | X a d v ) ) }

s.t. ||XadvX||ϵ s . t .   | | X a d v − X | | ∞ ≤ ϵ

  其中 F(ytarget|X)=σ(logiStargetF^(i|X)iSotherF^(i|X)) F ( y t a r g e t | X ) = σ ( log ⁡ ∑ i ∈ S t a r g e t F ^ ( i | X ) ∑ i ∈ S o t h e r F ^ ( i | X ) ) 表示样本被判为手动挑选的coarse-class的概率, F^(i|X) F ^ ( i | X ) 是未规范化的分类到i下的概率值。 Starget S t a r g e t 是在所挑选的coarse-class下的物体分类集合, Sother S o t h e r 是在之外的物体分类集合。 ytarget y t a r g e t 是我们的目标coarse-class,计算模型将样本 X X 分到某个coarse-class类下的概率F(ytarget|X) F ( y t a r g e t | X )
  每个对中的图像,加以扰动,使得其被误判为对应的coarse-class中的对立图像类型。扰动生成对抗样本的方式如下 paper:
   X^nadv=Xn1advαsign(Δxn(J(Xn|ytarget))) X ^ a d v n = X a d v n − 1 − α ∗ s i g n ( Δ x n ( J ( X n | y t a r g e t ) ) )
   Xnadv=clip(X^nadv[Xϵ,X+ϵ]) X a d v n = c l i p ( X ^ a d v n [ X − ϵ , X + ϵ ] )
  为适应多模型集成对抗,采用如下方法评估代价函数 paper:
   J(X|ytarget)=log[Pens(ytarget|X)] J ( X | y t a r g e t ) = − log ⁡ [ P e n s ( y t a r g e t | X ) ]
   Pens(y|X)exp(Ek[logFk(y|X)]) P e n s ( y | X ) ∝ e x p ( E k [ log ⁡ F k ( y | X ) ] )
  人类识别实验部分如下:
对抗样本之人机迁移:Adversarial Examples that Fool both Human and Computer Vision_第3张图片

Reference

  1. 《Adversarial Examples that Fool both Human and Computer Vision》
  2. 《Adversarial Examples in the Physical World》
  3. 《Delving into Transferable Adversarial Examples and Black-box Attacks》

你可能感兴趣的:(技术博客,对抗样本,计算机视觉,神经网络,迁移,cv)