Explaining and Harnessing Adversarial Examples 笔记

Explaining and Harnessing Adversarial Examples

https://arxiv.org/abs/1412.6572

Summary

  • 本文提出了白盒模型下不定向对抗攻击的方法FGSM
  • 表面了DNN是因为高维空间中的线性行为才是导致对抗样本出现
  • 提供了通过FGSM进行对抗训练的一种方法(起到正则化效果)
  • FGSM的扰动是对整张图的特征点进行较小扰动

Research Objective

  • 提出观点:DNN中高维度下的线性行为才是对抗样本的真正原因以往观点为DNN的非线性以及过拟合导致的
  • 提出FGSM算法用于快速生成对抗样本
  • 利用FGSM对DNN进行对抗训练的方法
  • Szegedy2014b已论证了对抗样本存在性,但是使用的是非线性优化法L-BFGS,存在有生成对抗样本速度较慢的问题。而本文提出的FGSM则通过求取Loss函数对输入图像各像素的梯度来完成,相对速度较快。
  • 过去的观点认为对抗样本的存在是因为深度神经网络的非线性性质以及过拟合(模型均化不足...)

Method(s)

  • 设定扰动为η权重向量w具有相同维度η的无穷范数(向量元素的max值)小于ε(极小的值),这样即可是的添加的扰动较难被人眼所感知,如上式中这样一个简单的线性模型,在输入样本具有足够高的维度情况下也可产生对抗样本,故证明了以往认为对抗样本是因为DNN非线性过拟合这一观点是错误的。

  • 而在高维度的情况下,对于多个输入元素都施加这样的干扰时就会产生很大的影响,且这个干扰量随着维度的增加而线性增长

  • 个人理解:神经网络虽然是非线性模型,但是其各部分的组件可以理解为是线性的组合,而对抗样本的扰动形式也可通过上述对高维度下多个样本元素进行小于ε的干扰得到一个较大的干扰数值以影响最终输出结果。

  • 由此作者证明第一个观点:DNN中高维度下的线性行为才是对抗样本的真正原因.

  • 作者提出Fast Gradient Sign Method(FGSM)来快速生成对抗样本:

Explaining and Harnessing Adversarial Examples 笔记_第1张图片

  • 扰动η由如下FGSM的公式根据损失函数的梯度得到,相较L-BFGS计算代价较低。
  • 同时sign函数作用:尽管计算梯度时不同的方向维度的梯度幅度不同,在生成数据时,各个方向被统一归一化成相同的数量。这样可以确保在修改图片时,每个像素的修改量尽量相同,修改得更均匀些。
  • 作者也提出另一种扰动方式:对图片进行极其微小的一个旋转,使得损失函数值升高,但是此类样本相对较少。

  • 最后作者提出了一种对抗训练的思路:(理论由Szegedy2014b提出)通过这样的对抗训练可以起到训练DNN时正则化的作用(单独效果强于dropout)

  • α为衡量对抗训练与原始训练的权重(一般取0.5)
  • 对抗训练也可提高模型对于对抗扰动样本的鲁棒性,同时作者也提出观点在对抗训练中对输入样本进行扰动比对隐藏层特征进行扰动的效果更佳,实验中显示的隐层扰动所得的训练模型正则化效果偏弱

Evaluation

  • 针对于对抗样本实验:
    • 作者分别在MNIST数据集以及参数ε = 0.25 与 ε = 0.1上对softmax以及maxout神经网络做了实验,对于对抗样本的错误率如下:
    • ε = 0.25:99.9%以及89.4%
    • ε = 0.1:maxout 87.15%
    • 且模型对错误样本的置信度均极高
  • 针对于对抗训练实验:
    • 对抗训练前maxout网络对于对抗样本的错误率为89.4%
    • 对抗训练后错误下降至17.9%
    • 同时对抗训练后的模型X,通过模型X生成的对抗样本在原模型的错误率也有效降低

Conclusion

  • 对抗样本可以被解释为一种高维产物,他们更多的是由于DNN的高维线性特征导致的
  • 对抗样本在同任务多模型间的泛化性可以理解为不同模型在权重上的高度相似
  • 扰动方向相较于样本空间的特殊点更为重要
  • 对抗训练有助于正则化
  • 作者提出完全非线性模型RBF网络可以在一定程度上抵御对抗样本(使其错误分类置信度相对较低)
  • 虽然DNN整体是非线性的一种分类,但是由于其各部分组成为线性,即使是sigmoid,我们也更希望样本点位置不会位于饱和端即出现在中间的类似线性的部分,即局部线性的情况。所以也可认为对抗样本的产生是DNN的线性部件的存在导致的。

Notes

  • RBF思路:分类问题在高维空间比在低维空间中更可能是线性可分的。
  • RBF神经网络对于K个样本M个隐含层单元的网络输出如下:

  • RBF网络学习的目标即为Wi以及中心ci

你可能感兴趣的:(Explaining and Harnessing Adversarial Examples 笔记)