《Universal adversarial perturbations》文献阅读笔记

本文关于介绍关于通用扰动的《Universal adversarial perturbations》。

 

1. 《Universal adversarial perturbations》

本文介绍了一种通用(Universal)扰动的构造方法,攻击方只需要对所有同一分布的样本添加该通用算法下的扰动,就能实现对抗样本构造。即不用像之前的方法那样,要针对每一个样本进行梯度计算以求得扰动。

 

     1.1 算法核心思想

     μ表示一组图片, 表示分类器,作者用下式形容算法的构造要求,即:寻找一个扰动v,使得在添加扰动后,μ内大多数图片都能被分类器误分类。(这里可以看出本次的UAP算法是一种不指定误分类目标的对抗样本构造方法)

      

     对于扰动v,作者用下式来对它进行限制:

      

     1式表示扰动v的大小要收到约束,2式表示添加扰动后需要达到一定的误分类的成功率(fooling rate)。

     在上述过程中,算法通过迭代(初始条件v=0)寻找最优v。而当当前扰动不是最优扰动时,遵循下式来寻找一个

      

      并且,为了满足,还要将得到的新扰动进行映射:

      

      最终,v的更新遵循:

       记

      则算法最终迭代停止条件为:

      

     算法流程图如下:

        《Universal adversarial perturbations》文献阅读笔记_第1张图片

     从算法流程中7式的要求可以看出,算法要求的是将Xi推离决策边界的最小扰动。

      作者用图像阐述了该算法的设计思路:

      《Universal adversarial perturbations》文献阅读笔记_第2张图片

     每次迭代时,都计算逃离当前分类域的扰动,这种超平面的思想和上周学习的Deepfool算法相似。

 

     1.2重要结论

      作者在后文分析通用扰动针对DNN网络的有效性时,对下式矩阵N的奇异值进行了分析:

      

      将N的奇异值与随机矩阵进行比较,并得到了如下结果:

      《Universal adversarial perturbations》文献阅读笔记_第3张图片

         Ps:奇异值分解

              

     根据得到的对比结果,作者认为这表明在深度网络的决策边界中存在着较大的相关性与冗余性。更精准地来说,作者认为存在一个低维子空间S,在这个S中存在着大量包裹着自然图像的决策边界的法向量,如图很形象:

     《Universal adversarial perturbations》文献阅读笔记_第4张图片

     作者认为,通用扰动之所以能对大部分自然图像都有效,是因为有这样一个空间S存在。

 

     1.3 我的想法

     给出的实验数据显示UAP算法具有很强的泛化能力,并且还具有一定的黑盒攻击能力。算法的构造比较简易,UAP算法在之后的研究中又分别出现了GDUAP、AAA、NAG等改进方法,有些是需要原始数据进行训练的,而有些则不需要。改进方法分别在愚弄率、算法效率、数据依赖性等方面做出了优化。这也是本文的UAP方法不足的地方。文章作者最后提出的低维空间S具有大量法向量的数学假说是通用对抗样本存在性的一种解释,这也在某种程度上深度探究了DNN网络的特性。

 

2. 下一步打算

本周阅读UAP主要是为了阅读这篇《Universal Perturbation Attack Against Image Retrieval(ICCV 2019)》做准备,这篇文章介绍了针对图像检索的通用扰动攻击。虽然UAP和其改进型在构造对抗样本领域具有很好的效果,但是将其直接运用到图像检索领域是比较困难的,因此下周主要阅读Universal Perturbation Attack Against Image Retrieval》这篇文章。

你可能感兴趣的:(对抗样本学习,深度学习,神经网络)