《EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES》论文笔记

论文地址: https://arxiv.org/pdf/1412.6572.pdf

Goodfellow又一大作,一篇对深度学习理论的文章。文章介绍了对抗样本生成机理,由此给出自己的fast gradient sign method(FGSM)。文章给出自己的假设,用自己的线性假设解释各种现象,并推翻部分前人的假设
一、高维度线性假设假设的提出
许多机器学习算法包括神经网络都容易受到对抗样本的攻击。换句话说,这些算法对于对抗样本的分类效果非常差。但是对抗样本的生成机理现在依然不清楚。一些解释认为,对抗样本是由于深度学习网络的极度非线性引起的,可能还有监督学习中的正则化和模型均化不足引起的。但是作者认为这个解释是没有必要的,高维度空间的线性行为足够形成对抗样本。

二、高维度线性假设假设的推到
因为样本输入特征(input feature)的精度有限(一般图像的每个像素是8bits, 样本中所有低于1/255的信息都会被丢弃),所以当样本 x中每个元素值添加的扰动值 η小于样本输入特征精度时,分类器无法将样本 x和对抗样本x˜ = x + η区分开。也就是对一个分类良好的分类器而言,如果η是一个足够小以至于被舍弃掉的值,那么只要 ||η||∞ < e,分类器将认为x和x˜属于同一个类。下面考虑权重向量w⊤(T表示转置)和对抗样本x_的点积为w⊤x˜ = w⊤x + w⊤η.可以看出,对抗扰动使得activation增加了w⊤η,作者提出让 η=sign(w)从而使wTη最大化。假设权重向量w有n个维度,且权重向量中元素的平均量值是m,那么activation将增加emn(e*m*n)。虽然||g||不会随着维度n的变化而变化,但是由g导致的activation的增加量emn会随着维度n线性增长。那么对于一个高维度的问题,一个样本中大量维度的无限小的干扰加在一起就可以对输出造成很大的变化。
所以,对抗样本的推到过程也说明了,只要维度够高,线性网络也可以产生对抗样本。

三、非线性模型的线性扰动
非线性模型的线性扰动就是一个非线性微分线性化的过程,利用梯度下降的方式来实现。基于此,作者提出了一个快速生成对抗样本的方法,即fast gradient sign method(FGSM).

方法的实现:假设一个模型参数θ,x是输入,y是标签(目标输出),损失函数J(θ, x, y),可以在θ的附近线性化这个损失函数获得一个最佳正则限制扰动,η = esign (∇xJ(θ, x, y)) .梯度可以通过反馈的方式得到。一组实现如下图所示:
《EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES》论文笔记_第1张图片
实验表明,FGSM这个简单廉价的算法确实可以生成对抗样本,这也证明了对抗样本是由线性特性引起的。

四、线性模型的对抗训练VS权重衰减
作者选择了最简单的线性模型逻辑回归来做了这个实验,推到的过程在这里不再赘述,最后就是把FGSM的w⊤sign(w) = ||w||1带入,得到一个Ex,y∼pdata ζ(y(e||w||1 − w⊤x − b)),下面我们讨论最终得到的这个损失函数。
这个式子与L1正则化公式非常相似。不同之处在于,这里是 加上e||w||1,而L1正则化是减去。这也导致了最抗训练最终的损失是有可能完全消失的,只要模型的学习对预测足够自信。在低拟合度的情况下,对抗训练会使拟合度更低。因此,我们可以认为L1权重衰减相对于对抗训练是倾向于最坏情况,因为它在好的边际情况下是不能起作用的(这一段没怎么理解)。下面还例举了对抗训练与权重损失的对比实验,试验中,L1损失总是过分评估了对抗样本的损失,所以L1的权重系数不能太大,太大训练效果很差,但是权重太小又不能起到很好的正则化的作用。

五、深度网络的对抗训练

作者在文中表明,相比于线性模型,深度网络至少可以在训练网络过程中来抵御对抗扰动攻击。文章给一种利用FGSM进行对抗训练的方法:

这种对抗训练的方法意味着在训练过程中不断更新对抗样本,从而使得当前模型可以抵御对抗样本。但是作者表示在训练集上对抗训练的错误率error rate没有达到过0%,作者主要从以下两个方面解决:

  • 增大模型,即使用1600个unit代替240个unit
  • 在validation set上也使用early stopping算法

文章表明,在不进行对抗训练的情况下,模型识别FGSM攻击方法生成样本的错误率是89.4%,但是通过对抗训练,同样的模型识别对抗样本的错误率下降到17.9%

作者还探讨了在模型中加零均值零方差的实验,实验表明,这种方式对于抵抗对抗样本效果不好。

六、不同类型的模型容量
所谓模型容量就是指其拟合各种函数的能力。容量低的模型很难拟合训练集,容量高的模型容易过拟合。模型的容量对于对抗样本的敏感度是不一样的。低容量的模型对于对抗样本有一种天然的抗性(毕竟拟合度差)。文中用RBF做了一个实验,发现它对于误分类的样本信心非常低(1.2%)。但是RBF的不变性对于其他变换的适应性并不好。作者认为线性单元与RBF单元实际是一个precision与recall的权衡。为此,作者想要设计一个复杂的模型,包含二次单元和RBF网络,但是这个任务比较困难,

七、对抗样本泛化的原因
我们都知道很多论文都表明,对抗样本具有Transferability。具体来说,在一个特定模型上产生的对抗样本通常也容易被其他模型误分类,即使这些模型的结构不同或者模型在不同的训练集上训练。甚至,不同的模型对对抗样本误分类的结果相同!作者表明,非线性或者过拟合的假设不能解释上述的现象,即, 为什么拥有无限能力的极度非线性模型会以相同的方式标注数据分布点?在本文提出的线性解释下,作者认为对抗样本在广泛的子空间存在。
《EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES》论文笔记_第2张图片

上图表明,在不同的 下,可以看到FGSM可以在一维的连续子空间内产生对抗样本,而不是特定的区域。这就解释了为什么对抗样本特别多,以及对抗样本transferability存在的原因。

另外,为了解释为什么不同的分类器将对抗样本误分类到同一个类,作者假设目前的方法训练神经网络都类似于在同一个训练集上学习的线性分类器。由于机器学习算法的泛化能力,所以线性分类器可以在训练集的不同子集上训练出大致相同的分类权重。底层分类权重的稳定性反过来又会导致对抗样本中的稳定性。

八、对抗样本的其他假设

假设1:生成训练可以在训练过程中提供更多的限制,或者是的模型学习如何分辨"real"或者"fake"的数据,并且对"real"的数据更加自信

文章表明,某些生成训练并不能达到假设的效果,但是不否认可能有其他形式的生成模型可以抵御攻击,但是确定的是生成训练的本身并不足够。

假设2:对抗样本存在于单个奇怪的模型(models with strange quirks),因此多个模型的平均可以使得模型防御性更好。

文章通过实验说明,模型融合对于对抗样本的防御能力非常有限。

参考:https://zhuanlan.zhihu.com/p/32784766

你可能感兴趣的:(gan)