【生成对抗样本】Simple Black-Box Adversarial Attacks on Deep Neural Networks

对深度神经网络的简单黑盒对抗性攻击

作者:Narodytska N,Kasiviswanathan S

2017年发表在IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops

主要内容

深度神经网络容易受到精心设计的对抗性干扰,这会导致输入的错误分类。在本文中,我们专注于深度卷积神经网络,并证明即使没有目标网络的任何内部知识,对手也可以轻松制作对手示例。 我们的攻击利用了一种新颖的基于局部搜索的技术来构造网络梯度的数值近似值,然后仔细地使用它来构造图像中的一小部分像素以进行扰动。

设计与实现

1.策略:在图像空间上执行贪婪的局部搜索,(不同点:不假设访问的真正网络的梯度,所以任何梯度方法不适用,eg:基于Jacobian)使用局部搜索来构造网络梯度的隐式近似值,并用于指导扰动。
2.局部搜索,目标函数f(z),目标为最小化f(z),局部搜索分两个步骤:
①对上一轮迭代得出的点zi-1,选择局部邻域Z,并求f(Z)
通常,Z由 与当前zi-1很接近的点组成
②从zi-1和Z中的点选择新的解zi, zi=g(f(zi-1),f(z1),f(z2),…,f(zn)).g是预定义的变换函数。
【生成对抗样本】Simple Black-Box Adversarial Attacks on Deep Neural Networks_第1张图片
解释:

实验评估

【生成对抗样本】Simple Black-Box Adversarial Attacks on Deep Neural Networks_第2张图片

从这些结果可以明显看出,即使没有访问网络体系结构及其参数值(黑盒),算法LOC-SEARCHADV在生成对抗图像方面比快速梯度符号方法更有效。(特别是对于使用批量归一化训练的网络,差异非常明显。)我们的方法的优点是,与FGSM扰动的所有像素相比,它可以修改很小一部分像素,并且在许多情况下,平均扰动也要少得多。
但另一方面,FGSM在生成过程中花费的时间更少,并且通常为对抗性(分类错误)图像产生更高的置信度得分。

结论与总结:

本文的贡献(我认为可以利用的点):
1.在不了解网络体系结构或其参数的情况下(在黑盒攻击的背景下),攻击策略基于贪婪的局部搜索(一种迭代的搜索过程)的思想,其中在每个回合中,均使用局部邻域来优化当前图像,并在此过程中优化一些依赖于网络输出的目标函数。

2.考虑更严格的错误分类概念 :k-误分和目标误分

你可能感兴趣的:(论文阅读,恶意软件检测,对抗攻击)