Chenglin Yang, Adam Kortylewski, Cihang Xie, Yinzhi Cao, and Alan Yuille
Johns Hopkins University
这是一篇比较新的对抗块攻击的相关文章,发布于arxiv:2020.04.12, 头几天刚在组会上分享了相关论文,今天在这里简单分享一下。
文章比较新,应该是初稿,包括一些实验设置及说明等不太完善,及代码等也没有公开。但是里面涉及到的一些点,还是具有一些启发意义的,所以还是可以学习了解一下的。
因为本篇论文的自身特点,与之前的论文解读方式有所不同,没有进行过多的细节的描述,而是进行了比较高的总结与探讨。
主要点从题目中也可以看出来:强化学习、黑盒攻击、基于纹理。
摘要:
现有基于块的黑盒攻击的局限性:它们在有目标攻击中表现不佳,甚至在无目标攻击中也不太具有挑战性,它们需要大量查询。
我们提出的PatchAttack:查询更有效且可同时实现有目标及无目标攻击。
设计了一个纹理字典,通过在网络的特征激活上利用Gram矩阵聚类学习得到。
PatchAttack通过强化学习优化对抗块的位置和纹理信息,实现攻击块的面积更小、攻击更强。
进一步的,证明了其对于相关防御方法的攻击性能。
总结4个点就是:
1.更有效的即查询次数更少的黑盒攻击;
2.提出了一个纹理字典;
3.强化学习迭代优化对抗块的位置和大小;
4.对于相关防御方法的攻击能力。
本文对于文章的一些具体细节不做过多探讨:一个是其具体细节价值有多大,对于初稿来说不好说;一个是确实有些细节及实验设置也不太清楚。所以主要针对如上4个点,进行相关的知识了解及学习。这4个点,对于相关问题得研究还是有其一定的启发意义的。
1)RL Agent首先在原图上选择一个块的位置;
2)然后选择一个纹理图像;
3)在纹理图像上选择一个对抗块;
4)将选择的对抗块应用于原图像生成对抗图像;
5)将对抗图像输入网络DCNN;
6)网络识别并根据结果反馈给RL Agent,实现第一步更新。
下面先分别主要讲一下如上的4个点,然后再根据如上流程做一个总结。
不知道具体的目标网络模型结构,即不知道网络的梯度信息,因为白盒攻击主要是利用的梯度信息来实现的对抗块攻击。只能是输入已知图像,得到输出结果。那么输入输出的一个过程就代表一次查询过程。
现有的黑盒攻击: Fawzi et al. , Hasting Patch Attack (HPA): 他们使用的是单色块,不优化块的像素值,知识通过Metropolis-Hastings sampling来每次查询块的位置和形状,这种随即搜索策略需要大量的查询次数。
本篇论文实现的对抗块攻击,也不是来优化对抗块的像素值,而是通过强化学习来迭代优化块的位置和大小。
所以本篇论文提出的黑盒攻击,可能并不是十分的准确,因为他所利用的对抗块是提前生成好的纹理图像,只是在纹理图像当中搜索一个更好的对抗区域。更多的对抗性的可转移性上,基于其利用已有的对抗技术生成的对抗样本。他这里的主要贡献是对于对抗块的一个位置和大小的一个优化。
利用强化学习来搜索一个更优的对抗块位置和大小,需要较少的的查询次数,比现有的随机搜索更加有效。
将攻击定义为一个代理A的决策过程,它通过采取行动(在图像中放置补丁)和观察奖励(误分类率)来与它的环境(模型)交互。
使用强化学习实现对抗块搜索:
S表示对抗块的搜索空间,u、v代表对抗块的左上右下坐标,C表示多少个对抗块;
A表示块搜索的过程,定义为一个时间序列问题,a1…at;
r 为最终网络的反馈奖励,分为有目标y‘攻击,和无目标攻击1-y,来达到攻击的效果。后面的参数控制块的位置和大小。
主要分为如下几个步骤:
1).针对每一类别的所有图像,利用风格转移的Gram matrices,分别编码生成每一张图像的纹理信息Gi;
2).利用Grad-CAM定位每张图像中的前景的主要信息,减少大量背景信息对于最终图像的影响;
3).对于每一类别的所有图像的纹理信息Gi进行k-means聚类,各类别生成30个纹理嵌入矩阵Gs;
4).对于每一类别内的30个Gs,分别与这个类别的特征嵌入Gt,进行loss迭代优化,从而产生这个类别的不同风格的30个对抗块。
生成的每一类的对抗纹理字典图像如下所示:
本文声称:我们提出的是一个基于纹理对抗块的攻击方法,那么其最好的防御方法应该是不基于纹理来实现判别图像的网络。那么正好有一个基于物体形状来实现图像分类的网络,本文通过我们的基于纹理对抗块的攻击方法,来可以很好的攻击基于物体形状来判别图像的网络,来证明我们方法的强有效性。
(这里的实验设置很有意思,首先他这里说的基于物体形状判别图像的网络并不是用于对抗样本防御的;另一个是针对现有存在的防御方法,他的攻击性能并没有写到论文里;最后,他这个基于纹理的对抗块攻击,一定就是基于纹理的吗。这里还是存在很多疑问的)
如上是截取的本文的2个实验结果,一个是在原分类网络上的攻击效果;一个是对于基于形状的分类网络的攻击效果。从他的实验结果当中,并没有发现基于形状的网络对于对抗样本具有一丁点的防御效果。所以这里还是存在一些疑问的。
这篇论文比较新,很多细节并不完善,包括代码也没有公开,存在很多疑问在里面,所以不做过多的细节探讨。但是如上4点所述,对于每一点还是存在其启发意义和可进一步研究探讨的价值的。
1)网络模型:对抗样本中,网络模型应用的进一步多样化:从最开始白盒的分类及检测网络本身-------到GAN网络优化-----到这里的RL网络,都是具有其自身的价值和可进一步探讨性的;(本文对于块的大小、位置的优化)
2)黑盒攻击及纹理图像:虽然本文所述的黑盒攻击并不十分完善,但是不论是相关方向,还是其对抗块本身的可转移性上,都同样具有进一步探讨的价值;
3)见下篇文章,,,