对抗攻击经典论文——FGSM学习笔记 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES

论文下载:Explaining and Harnessing Adversarial Examples

1摘要

几种机器学习模型,包括神经网络,一致地将对抗样本误分类——通过对数据集样本添加细微而刻意的扰动形成的输入,会导致模型以较高的置信度输出错误的结果。早期尝试解释这种现象时会专注于非线性和过拟合。但我们认为,造成神经网络在面对对抗扰动时的脆弱性的主要原因正是它们的线性特性。这种解释得到了新的定量结果的支持,对抗样本横跨网络结构和训练集的特点,也为这种解释提供了一个有趣的事实依据。此外,该观点产生了一种能够简单且快速地生成对抗扰动的方法。使用这种方法来提供样本进行对抗训练,能够降低Mnist 数据集上的Maxout网络的测试错误率。

2引言

Szegedy等人提出了一个有趣的发现:几种机器学习模型,甚至是SOTA网络,在面对对抗扰动时都是脆弱的。这也就是说对抗扰动暴露出了我们通常训练算法中的 盲点。
对抗样本的产生原因是个谜,有人认为是由于深度神经网络的极端非线性导致,甚至可能与纯粹的监督模型的正则化不充分有关。我们认为上述假设是不必要的,高维空间中的线性特性足够产生对抗样本。此观点给我们提供了一种能够快速生成对抗样本并进行对抗训练实践的方法。我们认为对抗训练产生的额外的正则化效果已经超出了仅用dropout带来的效果。

3对抗样本的线性解释

因为样本输入特征(input feature)的精度有限(一般图像的每个像素是8bits, 样本中所有低于1/255的信息都会被丢弃)(常见的数据图像大部分表示成1-255,8bit/像素点的形式,所以能够表示样本的精度十分有限),所以当样本x中每个元素值添加的扰动值η在小于样本输入特征精度时,分类器无法将样本x和对抗样本x˜=x+η区分开。也就是对一个分类良好的分类器而言,如果ε是一个足够小以至于被舍弃掉的值,那么只要
[公式],分类器将认为x˜和x属于同一个类。下面考虑权重向量wT和对抗样本x˜的点积 在这里插入图片描述
可以看出,对抗扰动使得activation增加了wT·η,作者提出让η=sign(w)从而使wT·η最大化。假设权重向量w有n个维度,且权重向量中元素的平均量值是m,那么activation将增加ε·n·m。虽然η的无穷范数不会随着维度n的变化而变化,但是由η导致的activation的增加量ε·n·m会随着维度n线性增长。那么对于一个高维度的问题,一个样本中大量维度的无限小的干扰加在一起就可以对输出造成很大的变化。
对抗攻击经典论文——FGSM学习笔记 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES_第1张图片
所以对抗样本的线性解释表明,对线性模型而言,如果其输入样本有足够大的维度,那么线性模型也容易受到对抗样本的攻击。
以前的关于对抗样本的解释基于神经网络的假设属性,如高度非线性。我们的线性特性产生对抗样本的解释更简单,还可以解释为什么softmax回归易受对抗样本攻击的原因。

4非线性模型的线性扰动

对抗样本的线性解释介绍了一种快速生成对抗样本的方法。我们假设神经网络过于线性的性质使其不能抵抗对抗扰动。LSTMs,RELUs等算法为了便于优化,都故意设计为线性的方式。非线性模型如sigmoid等也出于同样的原因,花费大量时间在非饱和的时候进行线性设计。这些行为都应该对神经网络造成了破坏。
对抗攻击经典论文——FGSM学习笔记 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES_第2张图片
图中可以看出,通过往输入中加入与损失函数梯度的符号函数值相等的微小向量,能够改变神经网络对图片的分类结果。

θ是模型的参数,x是模型的输入,y为与x相关联的目标(对于具有目标的机器学习任务)和J(θ,x,y)是用于训练神经网络的损失函数。我们可以基于θ的当前值对损失函数进行线性化,获得η=α的最佳max-norm约束的扰动(∇x,J(θ,x,y))。
在这里插入图片描述
我们称这种生成对抗样本的方法为快速梯度符号法,其中需要的梯度可以通过反向传播来有效计算得到。
我们发现这种方法能可靠地使得各种模型误分类它们的输入。其他的生成对抗样本的方法还有,沿着梯度的方向将x旋转一个小角度,来生成对抗样本。
事实证明,这些简便生成对抗样本的方法能够作为证据支持我们关于对抗样本的线性解释。这些算法同样可以作为加速对抗训练和分析训练网络的有效方式。

5权重衰减线性模型的对抗训练

在这里插入图片描述
在这里插入图片描述
这里与L1正则化有些类似,但也有区别。最主要的就是这里L1惩罚项在训练期间要减去模型的激活,也就意味着如果模型学到的足够多的,乘法最终会消失。这个是不能保证发生的,欠拟合时,对抗训练会使得欠拟合情况更加严重。可以把L1权重衰减看做比对抗训练更糟的情况,因为模型并没能训练到足够好的情况。
回到多分类问题,L1权重衰减变得更加悲观,由于无法找到与所有类别权重向量对齐的η,它将每个softmax的输出都当做独立地扰动。权重衰减高估了扰动对含多个隐层单元的神经网络存在的损害。L1惩罚高估了对抗能造成的损害,所以有必要使用比与特征精度相关的ε更小的惩罚系数。更小的惩罚系数能够更好地训练,但没有带来正则化效果。

6深度网络对抗训练

我们发现使用基于快速梯度符号法的对抗目标函数训练是一种有效的正则方式
在这里插入图片描述
这种模型对于对抗样本有一定的抵抗力。

你可能感兴趣的:(#深度学习,对抗攻击,机器学习,神经网络,算法,机器学习,深度学习)