如今一些深度神经网络对于一些对抗性样本(Adversarial sample)是弱势的, 对抗性样本就是指我们对输入进行特定的改变, 通过原有的学习算法最终导致整个网络内部出现误差, 这属于攻击的一种, 然而, 现在的攻击都是要么计算代价特别大, 要么需要对目标的模型和数据集有大量的先验知识, 因此, 这些方法在实际上其实都不实用. 该文章主要介绍了一种程序性噪声, 利用该噪声, 使得构造实用的低计算量的黑盒攻击成为了可能, 对抗鲁棒性的神经网络结构, 比如Inception v3和Inception ResNet v2 在ImageNet数据集上. 该文章所提出来的攻击实现了低尝试次数下成功造成错分类.
这种攻击形式揭露了神经网络对于Perlin噪声的脆弱性, Perlin噪声是一种程序性噪声(Procedural Noise), 一般用于生成真实的纹理, 使用Perlin噪声可以实现对所有的分类器都实现top1 至少90%的错误率, 更加令人担忧的是, 该文显示出大多数的Perlin噪声是具有**“普适性”**(Universal)的, 在对抗样本中, 数据集的大部分, 使用简单的扰动使得高达70%的图片被错误分类
Top-5错误率: 即对一个图片,如果概率前五中包含正确答案,即认为正确。
Top-1错误率: 即对一个图片,如果概率最大的是正确答案,才认为正确。
这样的结果揭示了DNN系统的脆弱性, 并且该脆弱性需要被更多地研究, 该文也显示了对抗训练的局限性, 对抗训练是一种用来增强鲁棒性以至于能够防御对抗样本的手段, 然而, 攻击者只需要改变生成对抗样本的视角就能够实现成功攻击, 并且作为防御者, 很难去预测所有未来可能的对抗扰动.
首先, 我们需要知道神经网络是十分脆弱的, 现存的有很多攻击手段, 比如在训练过程中, 攻击者可以注入一些恶意的样本(malicious data), 这个称之为下毒攻击(poisoning attack), 目标是降低整体的性能(performance). 在测试阶段, 攻击者可以利用学习算法的盲点和弱项来制造内部的误差, 我们称之为闪避性攻击(evasion attack), 这种针对机器学习系统的攻击在很多针对反病毒引擎, 反垃圾邮件或者在社交网路上检测虚假文件和虚假消息的系统上已经被报告出来.
在图像分类任务上, Szegedy等人提出神经网络会容易受这样的对抗样本所影响: 使用和真实的数据无差别的图片作为输入, 结果是错分类的, 扰动的目的是为了欺骗学习算法, 这样的扰动通常来说特别小, 检测这些对抗样本是一种挑战.
举个例子, 更改某几个像素点的值, 或者加上一些微妙的噪声
上图就是使用该文章所提出来的方法来进行噪声的添加, 最终导致分类错误, 最左边是原图, 中间是添加了噪声的图片, 原本被分类成"analog clock"被错分类成"barbell"
关于制作这些对抗性样本提出来的有黑盒和白盒的方法, 白盒的方法依赖于基于增加到对抗样本的扰动大小的约束和一个机器学习分类器提供的几率(odds). 虽然, 这些攻击是十分有效的, 但是确是计算代价较大的, 并且对于扩展到自然大图片数据集上不友好, 比如ImageNet.
这里的odds应该是指softmax后的整个概率向量
通常来说, 黑盒攻击使用两种方法:
构造者通常都要对机器学习系统进行大量的请求, 并且很难应用于高维度的数据集, 通常需要构建一个代理数据集和代理模型.
利用代理模型进行攻击比利用梯度要更好地进行扩展, 能够在一些ImageNet数据集上实现高达70% 的top-1 闪避(evasion), 并且减少请求的次数. 然而, 这些方法还是需要对目标分类器的了解或者是相似分类器的了解, 和梯度估计方法不同, 假设了攻击者具有更受限制的知识.
该篇文章提出了一个新颖的方法来生成有效的对抗样本, 在计算机视觉任务上作为黑盒攻击. 发现程序性噪声在欺骗自然图片分类器上具有极好的效果, 并且计算代价十分小, 请求次数也十分小.
Perlin噪声模式是用来生成自然界的纹理的, 在图片和视频游戏中也有应用, 有趣的是, 这些扰动视觉上类似通用的对抗扰动(Universal Adversarial Perturbation), 能够使用相同的对抗噪声模式来高概率地欺骗一个深度神经网络.
该文的方法依赖于一个减少控制噪声生成的参数的优化, 提出使用贝叶斯优化(Bayesian optimization), 这个优化已经被证明是对于黑盒优化有效的方法, 它通过考虑目标函数的估计的不确定性来减少了函数的数目.
实验结果是能够达到至少90%和45%的top-1和top-5错误率, 是部分的黑盒攻击的效果的两倍, 更进一步, 该结果在大多数情况下对比白盒攻击在ImageNet上效果甚至更好.
对抗训练(adversarial training)用于增强模型对于对抗样本的鲁棒性, 虽然该方法应对白盒攻击体现出了效果, 该文显示了其限制性, 只要攻击者改变生成对抗样本的视角即可, 我们使用了全体对抗训练(ensemble adversarial training), 对抗训练里面最优的模型, 仍然对于Perlin噪声攻击不够有鲁棒性.
给出该文章的主要贡献:
机器学习的脆弱性由**对抗机器学习(adversarial machine learning)**开展的一系列研究来进行探索.
关于对抗机器学习, 该方向是机器学习和安全的交叉点, 为了探究能够使攻击者来破坏机器学习系统的方法, 以及开发更加鲁棒性的算法用于减轻这些攻击的效果.
在训练阶段, 攻击者可以使用毒害攻击(poisoning attack), 通过注入一些恶意数据 到我们的训练集合里面, 进而操纵整个系统的行为, 同时是为了降低整个系统的性能. 第一个实际中的毒害攻击被应用在了垃圾邮件过滤和异常检测系统之中.
防御策略通常有以下两种方法:
**偷漏攻击(Evasion attack)**是在测试阶段进行攻击的方法, 使得模型产生内部的错误, 并且使用这种弱点和盲点.
我们可以根据对抗者的能力和知识来对攻击进行分类
白盒攻击是**基于迁移(transferability-based)**的黑盒攻击的基础
Szegedy等人提出来最小化攻击, 做出最小化的扰动来实现攻击, 使用L-BFGS来解决优化问题
C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, “Intriguing Properties of Neural Networks,” arXiv preprint arXiv:1312.6199, 2013.
Biggio等人提出来限制最大扰动的攻击.
B. Biggio, I. Corona, D. Maiorca, B. Nelson, N. ˇSrndi´c, P. Laskov, G. Giacinto, and F. Roli, “Evasion Attacks against Machine Learning at Test Time,” in Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2013, pp. 387–402.
Goodfellow等人提出来快速梯度符号方法(FGSM— Fast Gradient Sign Method)攻击, 利用cost函数反推出梯度, 然后对样本进行扰动.
**I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” arXiv preprint arXiv:1412.6572, 2014. **
虽然, 这些方法依赖于近似, 但是不复杂并且有效以及可扩展到高维度的数据集.
其他的基于梯度的白盒攻击方法, 比如雅可比特性映射方法(JSMA–Jacobian Saliency Map Approach), C&W (Carlini & Wagner)方法以及DeepFool方法
**N. Papernot, P. McDaniel, S. Jha, M. Fredrikson, Z. B. Celik, and A. Swami, “The Limitations of Deep Learning in Adversarial Settings,” in European Symposium on Security and Privacy, 2016, pp. 372–387. **
**N.CarliniandD.Wagner,“TowardsEvaluatingtheRobustnessofNeural Networks,” in Symposium on Security and Privacy, 2017, pp. 39–57. **
**S.-M. Moosavi-Dezfooli, A. Fawzi, and P. Frossard, “Deepfool: a Simple and Accurate Method to Fool Deep Neural Networks,” in Conference on Computer Vision and Pattern Recognition, 2016, pp. 2574–2582. **
这些攻击的快速版本, 比如FGSM和Step-LL, 将效率和速度进行交换
A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial Machine Learning at Scale,” arXiv preprint arXiv:1611.01236, 2016.
Moosavi-Dezfooli等人公式化了白盒攻击, 并且概括了DeepFool来生成一个统一对抗扰动(UAPs–Universal Adversarial Perturbations): 通过图片集的单一的对抗扰动来欺骗分类器
以上这些方法是根据梯度来进行对抗样本的生成的, 但是由于神经网络的复杂性, 利用梯度来构造对抗样本是不足够合理的, 可能找不到解, 不过在实际的某些任务上, 仍然可以用梯度方法来找到对抗样本.
黑盒攻击代表了更为一般的场景, 特别是当机器学习算法被部署到真实世界中的时候. 很多实际的黑盒攻击关注于对抗样本的迁移性, Papernot等人观察到对抗样本在模型之间的迁移性, 并且基于此, 他们训练一个**代理模型( surrogate model )**来进行分类任务, 对代理模型进行白盒攻击, 使用所生成的对抗样本来黑盒攻击真实的模型.
N. Papernot, P. McDaniel, and I. Goodfellow, “Transferability in Machine Learning: From Phenomena to Black-box Attacks using Adversarial Samples,” arXiv preprint arXiv:1605.07277, 2016.
N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical Black-box Attacks Against Machine Learning,” in Asia Conference on Computer and Communications Security, 2017, pp. 506–519.
为了增强他们的攻击, 还使用合成的办法对数据集进行扩展.
Kurakin等人将其攻击继承到大图片数据集ImageNet上面, 他们的结果是在最好的神经网络模型上表现出60%的top1错误和50%的top5错误.
A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial Machine Learning at Scale,” arXiv preprint arXiv:1611.01236, 2016.
Moosavi-Dezfooli等人也基于ImageNet任务中, 探索了他们的UAP在不同神经网络中的一般性, 使用迁移攻击实现了74%的top 1错误.
**S.-M. Moosavi-Dezfooli, A. Fawzi, O. Fawzi, and P. Frossard, “Universal Adversarial Perturbations,” in Conference on Computer Vision and Pattern Recognition, 2017, pp. 86–94. **
当攻击者只有少量的知识的时候, 上述方案看上去便不太实际, 而且迁移的特性是不被保证的.
其他的黑盒侧重于使用大量的请求来估计目标分类函数, 但是容易被注意到并防御下来.
利用梯度构造的对抗样本, 其接近于分类器分类的边界, 这对于复杂的数据集, 比如ImageNet数据集我们对于一张图片至少需要访问神经网络1000次(ImageNet有1000个类别), 这是很难解决的. 基于决策的方法和ZOO方法被提出.
W. Brendel, J. Rauber, and M. Bethge, “Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models,” arXiv preprint arXiv:1712.04248, 2017.
P.-Y. Chen, H. Zhang, Y. Sharma, J. Yi, and C.-J. Hsieh, “Zoo: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models,” in Workshop on Artificial Intelligence and Security, 2017, pp. 15–26.
很多这样的黑盒攻击并没有考虑对于复杂神经网络以及复杂的自然数据集的实际意义以及效率.
空域攻击(Spatial Attack), 利用简单的变换, 比如旋转, 缩放等来生成对抗样本, 实现了低次数的访问以及取得了合理的成功, 对于标准的ResNet-50来说, 在ImageNet任务下, 实现了训练集的70%的top-1错误以及50%的扩充训练集的top-1错误.
**L. Engstrom, D. Tsipras, L. Schmidt, and A. Madry, “A Rotation and a Translation Suffice: Fooling CNNs with Simple Transformations,” arXiv preprint arXiv:1712.02779, 2017. **
该文的方法为非空域攻击, 在原始图片上使用一种加性噪声来构造对抗样本.
正确地区分对抗样本是很困难的, 但亦提出来一些检测进行梯度混淆的对抗样本的方法, Athalye等人以及Carlini等人提出了避免这种特殊攻击的防御手段.
A. Athalye, N. Carlini, and D. Wagner, “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples,” arXiv preprint arXiv:1802.00420, 2018.
N. Carlini and D. Wagner, “Adversarial Examples are not Easily Detected: Bypassing Ten Detection Methods,” in Workshop on Artificial Intelligence and Security, 2017, pp. 3–14.
在现存的防御手段中, 对抗性训练展现了更为一般性的鲁棒性, Kurakin等人实现了对抗性训练并且显示其针对单步梯度攻击的鲁棒性.
A. Athalye, N. Carlini, and D. Wagner, “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples,” arXiv preprint arXiv:1802.00420, 2018.
A. Kurakin, I. Goodfellow, and S. Bengio, “Adversarial Machine Learning at Scale,” arXiv preprint arXiv:1611.01236, 2016
Madry等人使用**投影梯度下降(PGD–ProjectedGradient Descent)**的方法, 并通过实验说明了利用该方法生成样本进行训练, 能够对于先序攻击有一定适应性.
A. Madry, A. Makelov, L. Schmidt, D. Tsipras, and A. Vladu, “Towards Deep Learning Models Resistant to Adversarial Attacks,” arXiv preprint arXiv:1706.06083, 2017.
Tramer等人提出了全局对抗训练(ensemble adversarial training), 利用其他模型生成的对抗样本进行训练, 能够有效防范ImageNet的黑盒攻击.
该文章提出一种利用程序化噪声来生成对抗样本的方法, 所提出的方法和那些通过梯度不断修改以至于到达分类器的边界的方法不一样, 上述方法需要对目标的模型有一定的了解.
使用一类现实和自然纹理来生成对抗样本, 利用扰动对机器学习算法最终的结果产生不同. 程序化噪声广泛应用于计算机图形学, 并且在电影和视频游戏中有大量的应用, 用来生成仿真的纹理来细化自然的细节, 进而增强图像, 特别地, 比如玻璃, 树木, 大理石和动画(比如云, 火焰和波纹)的纹理. 由于这些特征, 假设程序化的噪声可以容易地骗过图片的分类算法, 并且给出的扰动和图片的背景和前景都有着相似的地方.
这样的噪声方法被设计为可以扩展到大图片数据集上, 能够很快进行分析并且实现低的内存使用. 这样的方法是参数化的, 使用相同的函数可以生成不同的噪声模式, 这样的性质使得可以被用做实际的黑盒攻击.
如果想要对程序化噪声有更深刻的了解, 可以细看
A. Lagae, S. Lefebvre, R. Cook, T. DeRose, G. Drettakis, D. S. Ebert, J. P. Lewis, K. Perlin, and M. Zwicker, “A Survey of Procedural Noise Functions,” in Computer Graphics Forum, vol. 29, no. 8, 2010, pp. 2579– 2600.
作为一种生成对抗样本的方法, 需要解释程序性噪声是如何欺骗现存的图片分类器的.
可以宽松地定义"自然纹理"来作为图片的扰动, 该扰动为真实图片的复制或者和自然模式有一些隐藏的结构相似性. 直觉是通过自然纹理对图片进行覆盖, 图片分类器会对这些加上去的形状和模式进行解释并作为特征, 这些特征将会影响最后的结果.
在合适的小的扰动之下, 生成的纹理将不会破坏原有的图片, 并且欺骗分类器.
传统的随机噪声, 比如高斯噪声或者椒盐噪声, 都是像素级别的, 对于像素级别的噪声对于神经网络是没有作用的, 原因是有卷积层和dropout来进行过滤, 另一方面, 复制自然图片的基于特征的噪声几何属性和其他图像是相似的. 由于现有的图像分类器被训练用于区分自然图片, 基于特征的噪声更有可能去影响最后的预测效果.
许多基于梯度的方法都是寻找一些分类器决策边界的几何相关性, 假定通过纹理或者模式在图片中也可以使用这种几何相关性, 并实现有效的攻击.
文章观察到在UAP中的攻击具有一些模式或者结构, 如下图所示
这些模式或者结构对于人类是无法识别的. UAP吸引人的地方在于, 大量的图片只使用同一个对抗扰动即可. 对于程序化的噪声, 如同下图的第三行
即生成一些和UAP相似的噪声模式, 可以期望令程序化噪声的模式和UAP有相似的属性, 实现给定图片集合中的一大部分的错分类.
使用Perlin噪声作为程序化噪声是由于其易于使用, 流行并且简单, 虽然Perlin噪声不是最有效或者无伪影的噪声函数, 其简单的实现对于低成本的黑盒攻击而言十分有效.
Perlin噪声是一种梯度噪声, 梯度噪声是利用一个伪随机梯度的方格来生成的噪声, 对这些点积然后插值得到噪声.
Perlin噪声的实现可以归结为三个步骤:
对于一个给定的点, perlin噪声的值通过在方格上的最邻近的 2 d 2^d 2d个点的伪随机的梯度上进行样条插值, 其中 d d d是图像的维度. 样条插值使用其平滑变化可以构造自然外观的图像, 因此区别于线性插值.
对于二维的图像( d = 2 d=2 d=2), 在点 ( a , b ) (a,b) (a,b)上的噪声通过以下方法进行推导:
令 ( i , j ) (i,j) (i,j)为方格的四个点, 其中 i = { ∣ a ∣ , ∣ a ∣ + 1 } i=\{|a|,|a|+1\} i={∣a∣,∣a∣+1}以及 j = { ∣ b ∣ , ∣ b ∣ + 1 } j=\{|b|,|b|+1\} j={∣b∣,∣b∣+1}, 那么可以得到四个梯度 g i j = V [ Q [ Q [ i ] + j ] ] g_{ij}=V[Q[Q[i]+j]] gij=V[Q[Q[i]+j]], 预计算的数组 Q Q Q是伪随机的数组, V V V包含一个伪随机的排列和相应的伪随机的单位梯度, 四个线性函数 g i j ( a − i , b − j ) g_{ij}(a-i,b-j) gij(a−i,b−j), 然后通过利用 s ( a − ∣ a ∣ ) s(a-|a|) s(a−∣a∣)和 s ( b − ∣ b ∣ ) s(b-|b|) s(b−∣b∣)双线性插值, 其中 s ( t ) = 6 t 5 − 15 t 4 + 10 t 3 s(t)=6t^5-15t^4+10t^3 s(t)=6t5−15t4+10t3, 所得的结果就是Perlin噪声值 P ( a , b ) P(a,b) P(a,b),
在该文章中, 规定了其中的参数, 频率 ν \nu ν, 倍频的数目 ω \omega ω, 缺项 k k k, 频率对应着临近像素值的改变的速率, 它影响了图片的视觉平滑性. 倍频的数目则是与外加噪声的多少有关, 缺项则是倍频之间的频率乘子, 如果该项越大则细节越多.
因此Perlin噪声就变为 P ( a , b ; ν , ω , k ) = ∑ n = 1 ω P ( a , b ; ν , ω , k ) P(a,b;\nu, \omega, k)=\sum_{n=1}^{\omega}{P(a,b;\nu, \omega, k)} P(a,b;ν,ω,k)=∑n=1ωP(a,b;ν,ω,k), 为了便于记忆, 我们写成 P ( a , b ) = P ( a , b ; ν , ω , k ) P(a,b)=P(a,b;\nu, \omega, k) P(a,b)=P(a,b;ν,ω,k)
颜色映射(Colour Map)
颜色映射通常被用来在图片的颜色和模式上来创造额外的变化, 颜色图如何影响视觉外观的一个例子可见上图, 在本文中, 使用一个正弦函数和一个频率参数 ν s i n e \nu_{sine} νsine来映射颜色, 使用一个灰度颜色映射, 三通道的RGB也是一样的, 牺牲噪声的复杂性使得可以针对优化问题在一个更小的解空间里面去搜索, 所需要优化的参数也变小了
我们用噪声值 v v v定义它, 函数 C ( v ) = s i n ( v ⋅ 2 π ν s i n e ) C(v) = sin(v·2πν_{sine}) C(v)=sin(v⋅2πνsine). 正弦函数的周期性在图像中产生不同的带, 以实现类似于图2中的对抗性扰动的外观.
虽然这减少了我们可以探索的各种模式, 但是增加额外的复杂性需要更多的查询才能使黑盒攻击成功. 图5示出了使用灰度正弦彩色图足以用极少量的查询来制作成功的攻击. 同样的推理适用于我们选择的Perlin噪声函数.
扩展性:
我们定义我们的生成函数 G G G, 它由Perlin噪声和灰度正弦彩色映射组合而成, 在点 ( a , b ) (a,b) (a,b)的噪声为:
G ( a , b ) = C ( P ( a , b ) ) = s i n ( P ( a , b ) ⋅ 2 π ν s i n e ) G(a,b)=C(P(a,b))=sin(P(a,b)\cdot 2\pi\nu_{sine}) G(a,b)=C(P(a,b))=sin(P(a,b)⋅2πνsine)
现在, 我们的参数为 θ = { ν , ω , k , ν s i n e } \theta=\{\nu, \omega, k, \nu_{sine}\} θ={ν,ω,k,νsine}
我们的噪声函数的这种可参数化特性极大地减少了对抗扰动的搜索空间. 我们不是在ImageNet上搜索整个图像空间(最大可达268,203像素), 而是针对较小的搜索空间优化算法, 在我们的例子中是4个特征. 功能数量的大幅减少极大地提高了攻击的可扩展性和速度.
在限制性设置中, 可以应用像贝叶斯优化这样的黑盒优化技术来进一步减少对目标模型的查询数量. 在攻击者旨在避免检测的对抗设置中, 这是非常理想的.
在本节中, 我们定义了威胁模型并描述了Perlin噪声攻击. 威胁模型允许我们将黑盒攻击置于上下文中, 并正式定义目标, 功能和约束. 尽管攻击的形式与所考虑的数据类型或分类问题无关, 但产生的扰动旨在欺骗计算机视觉任务中的机器学习系统.
我们提出的攻击是一种基于查询的黑盒算法, 它利用了程序噪声的属性. 在选择了具有参数 θ θ θ的程序噪声函数 G G G之后, 我们首先创建图像扰动以添加到原始“干净”图像. 然后将使用此更改的图像查询目标模型. 如果攻击不成功, 我们将使用贝叶斯优化更新我们后续的查询 θ θ θ, 旨在优化攻击者的目标函数.
为了使对抗能力和目标形式化, 我们还有一些额外的符号. 给定 k k k类和分类器 F F F的多分类问题, 让 F ( x ) F(x) F(x)为输入 x x x的输出概率分数. 因此, F ( x ) F(x) F(x)是 k k k维概率向量, 其中 F ( x ) F(x) F(x), F ( x ) F(x) F(x)中的第 i i i个元素, 表示 x x x属于类 i i i的概率.
当存在大量类时(例如, ImageNet数据集具有1,000个类标签), 分类器的性能通常以“前 n n n个”精度来衡量, 即, 当正确的标签在 n n n个最高概率分数中时. 设 T n ( x ) T_n(x) Tn(x)为给定输入 x x x的第 n n n个最高概率分数. 在 n = 1 n = 1 n=1的情况下, 我们有 T 1 ( x ) = a r g m a x i F i ( x ) T_1(x)= argmax_i F_i(x) T1(x)=argmaxiFi(x), 它是分类器对 x x x的预测标签. 设 τ ( x ) τ(x) τ(x)表示对象 x x x的真实标签. 当 F τ ( x ) ( x ) < T n ( x ) F_{τ(x)}(x)<T_n(x) Fτ(x)(x)<Tn(x)时, 出现前n个逃避, 其中“逃避”指的是目标分类器无法预测n个最高概率分数内的真实标签的情况.
设 G G G是对抗者选择的生成噪声函数, θ θ θ是其参数. 我们将 G ( θ ) = δ G(\theta)=δ G(θ)=δ定义为所得的对抗扰动, 即应用于每个像素坐标以生成整个图像的函数 G G G. 我们将对侧示例 x 0 x_0 x0表示为输入 x x x和生成的对抗扰动 δ δ δ之和, 即 x 0 = x + δ x_0 = x +δ x0=x+δ.
对手知识
目标模型是一个已经完成学习的黑盒分类器. 我们假设攻击者没有目标分类器的内幕知识, 例如其学习算法, 训练数据和模型设置. 虽然对手知道分类器的输入, 输出和类标签的数据类型.
对手能力
攻击者可以使用任何输入x查询目标分类器F, 并且知道这些输入的真实类标签τ(x). 在某些情况下, 图像分类器提供概率向量作为输出, 以显示分类器的置信度和替代预测. 因此, 对手可以观察输出类概率F(x)是合理的. 我们还考虑了这种概率输出向量不可用的情况.
对手目标
在给定合法输入的情况下, 对手希望在目标分类器中产生Top n evasion, 因为有限的预算会增加原始输入的扰动. 对手的主要目标是通过降低具有对抗性示例 x 0 x_0 x0的真实类别标签 F τ ( x ) ( x 0 ) F_{τ(x)}(x_0) Fτ(x)(x0)的概率来实现错误分类. 当真正的输入 x x x已经错误分类时, 这是微不足道的. 与[21]类似, 我们专注于不分青红皂白而非目标错误分类, 尽管我们的攻击方法可以应用于两者.
攻击者在最大限度地减少用于制造攻击的扰动的约束是根据原始输入x和头部对侧输入 x 0 x_0 x0之间的一些距离度量 d ( x , x 0 ) d(x,x_0) d(x,x0)来定义的. 这相当于限制扰动 ∣ ∣ δ ∣ ∣ ||δ|| ∣∣δ∣∣的范数, 其中 x 0 = x + δ x_0 = x +δ x0=x+δ. 这种扰动幅度的上限允许我们为攻击者建模可检测性约束. 我们还通过限制攻击者的查询数量来强加进一步的可检测性限制. 这是因为在实际情况下, 大量类似的请求会引起怀疑并且可以检测到攻击者. 尽管在一些有关黑盒攻击的相关工作[23], [25], [44]中已经提到了对查询数量的限制, 但在大多数情况下并未考虑这种限制.
我们现在可以定义用于生成对抗性示例的约束优化问题. 给定具有k类的学习分类F, 对手具有他们想要改变的输入x, 使得新输入x0 = x +δ被F的前n个误分类, 对距离||δ||<ε和数量的约束, 查询q 与相关工作一致, 我们假设我们的扰动预算ε足够小, 因此它不会以显着的方式在视觉上修改图像, 并且对于任何生成的x0, 原始标签都保留 τ ( x 0 ) = τ ( x ) = x + δ τ(x_0)=τ(x) = x +δ τ(x0)=τ(x)=x+δ. 该算法的目标是在参数θ上优化我们选择的生成函数G, 因此我们在目标函数中用δ(θ)代替δ. 当 F τ ( x 0 ) ( x 0 ) < T n ( x 0 ) F_{τ(x_0)}(x_0)<T_n(x_0) Fτ(x0)(x0)<Tn(x0)时发生前n个逃避, 因此优化问题的形式如下: 对于所考虑的图像分类数据集, 我们将像素值标准化为[0,1]. G(θ)和x + G(θ)的分量分别被剪切为[-ε, ε]和[0,1]以满足这些约束. 对于前n个逃避, 我们的目标函数小于0是足够的. 因此, 我们的算法的停止条件是 F τ ( x ) ( x + G ( θ ) ) − T n ( x + G ( θ ) ) < 0 F_{τ(x)}(x + G(θ)) - T_n(x + G(θ))<0 Fτ(x)(x+G(θ))−Tn(x+G(θ))<0 贝叶斯优化是一种基于序列模型的优化算法, 主要用于在黑盒设置中有效地找到最优参数θ[27], [28]. 事实证明, 该技术可以有效地解决各种问题, 如超参数调整, 强化学习, 机器人和组合优化[50]. 贝叶斯优化由两部分组成, 首先是概率代理模型, 通常是高斯过程(GP), 第二是指导其查询的获取函数. 该算法使用此获取功能来选择输入以查询目标分类器并观察输出. 然后更新统计模型的先验信念以产生函数的后验分布, 其在给定观察数据的情况下更具代表性. 一旦最佳目标函数值停止改进或算法达到最大迭代次数(查询)[50], 算法就会停止. 该算法具有查询效率, 因为它在其更新的后验中使用过去查询提供的所有信息, 同时还考虑了关于目标函数的模型的不确定性. 高斯过程 GP是一个非参数模型, 完全由先验均值和正定的核函数来描述[50]. 正式地, GP是随机变量的集合, 其中任何有限数量形成高斯分布. 非正式地, 它可以被认为是具有无限长矢量的隐藏(未知)函数, 并且GP描述其分布, 类似于如何通过n维高斯分布来描述一组n维矢量. GP对丰富的函数分布进行建模的能力取决于其核函数, 该函数控制函数分布的重要属性, 如平滑度, 可微分性, 周期性和幅度[50], [51]. 目标函数的任何先验知识都在内核的超参数中编码. 但是, 由于对手几乎不了解目标模型, 因此对手必须采用更通用的核函数[28]. 内核函数的常见选择包括自动相关性确定(ARD)平方指数和Mat’ern内核. 对于我们的实验, 我们遵循Snoek等人的观点. [28]在选择Mat’ern 5/2内核时, 他们声称像ARD这样的其他常见选择对于实际优化问题是不切实际的平滑[28]. Mat’ern 5/2内核产生两次可微分函数, 这一假设与流行的黑盒优化算法(如准牛顿方法, 不需要ARD的平滑性)相对应. 获取函数 获取函数必须平衡探索和利用之间的权衡. 探索寻求高方差区域, 即目标函数值不确定性较高的区域. 剥削寻找目标函数的不确定性和估计平均值较低的地方[50], 即模型与目标函数的估计值相关. 太少的探索可能会使其陷入局部极值, 而太多的探索并未充分利用所做的观察. 考虑到黑盒设置, 我们选择通用的采集功能. 两种最受欢迎的选择是优化预期改进(EI)或高斯过程上限(UCB). EI和UCB都被证明在真正的黑盒优化问题中是有效的和数据有效的[28]. 然而, 大多数工作已经发现EI收敛接近最优, 不需要调整自己的参数, 并且在一般情况下比UCB表现更好[28], [50], [52]. 这使得EI成为我们收购功能的最佳候选人. 在本节的其余部分, 我们将讨论如何选择参数(θ), 边界(ε, qmax)和度量(||·||). 我们还概述了参数优化策略, 同时考虑了我们的威胁模型. 参数边界 网格搜索标识当参数值被扰动时所生成的噪声继续具有显着变化的范围. 这些范围将是参数的搜索边界. “明显的变化”是通过视觉检查和“2下降范围”来衡量的. 我们松散确定的边界是ν∈[20,80], ω∈{1,2,3,4}, κ∈[1.7,2.2]和νsine∈[2,32]. 参数优化 由于对查询数量的限制, 诸如网格搜索和基于梯度的优化之类的详尽且查询密集的超参数搜索方法是不可行的. 我们只选择贝叶斯优化作为查询效率参数选择策略. 最大查询数 距离度量 我们进行了两次实验来测量Perlin噪声攻击的性能. 在第一个实验中, 我们一次攻击一个图像, 目的是尽可能多地规避. 在第二个实验中, 我们的目标是找到一组“强大的”Perlin噪声设置(扰动), 可以在尽可能多的图像中欺骗分类器. 在本节中, 我们将详细介绍模型体系结构, 训练方法, 我们使用的攻击以及我们如何评估攻击性能. 模型 我们还采用了更强大的Inception ResNet v2的对抗训练版本:Tramer等. [21]按照[20]的方法对抗Inception ResNet v2, 该网络将被称为IRv2adv. 然后他们使用整体对抗训练来进一步开发他们自己的模型, 我们将其称为IRv2adv-ens. 有关对抗和整体对抗训练过程的完整细节, 我们请读者参考[20]和[21]. 从[21]中获取模型使我们能够更好地与使用现有针对ImageNet分类器的快速攻击的结果进行比较:FGSM, Step-LL和Iter-LL. 个体攻击 我们测试三种不同的攻击方法. 首先是逐像素随机噪声扰动来设置生成对抗性示例的基线, 我们将其称为随机. 在∞范数约束内随机均匀地选择像素的图像噪声值. 如果我们的攻击性能并不比这个随机噪声好, 那么我们不认为它是一种有效的攻击. 我们接下来的两次攻击使用Perlin噪声, 如上一节所述. 两种变化之间的差异在于参数选择算法. 第一次攻击将使用随机选择的参数生成函数, 我们称之为Perlin-R. 给定单个图像, 我们迭代随机参数设置, 直到该图像被规避. 第二次攻击利用贝叶斯优化来选择生成函数的参数, 我们将其称为Perlin-BO. 给定单个图像, 我们使用贝叶斯优化更新我们的参数选择, 直到该图像被回避. 这种攻击是自适应的, 允许更有效的查询. 通用攻击 我们测试了两个Perlin噪声攻击, Perlin-R和PerlinBO. 参数选择算法与第一个实验类似, 但每个攻击的性能都是在所有验证图像上测量的. 对于Perlin-R, 我们迭代1000个随机Perlin噪声设置, 并测量所有验证图像上每个设置的错误率. 由于Perlin-R不使用其他信息, 因此攻击无需更改. 对于Perlin-BO, 我们使用贝叶斯优化来发现强烈的Perlin噪声扰动, 从而最大化错误分类的验证图像的数量. 我们将图像数据集分成两个独立的部分, 用于培训和评估阶段. 实际上, 这对应于校准和攻击阶段. 训练集将针对不同大小进行测试, 范围从10到2,000个图像, 预算为50次迭代, 用于贝叶斯优化. 贝叶斯优化的目标函数将是最大化训练集中错误分类的图像数量. 在评估阶段, 我们测量验证图像上产生的“最佳”Perlin噪声设置的错误率. 评价标准 我们得到的结果已经报告在表I中. 尽管自然图像的误差很小, 并且对随机扰动具有合理的性能, 但是对于我们的Perlin噪声对抗性示例, 分类器具有显着更高的误差. 最脆弱的目标模型在所有图像上成功回避. 在最坏的情况下, Inception v3在清洁图像上的前1错误为21.8%, 对PerlinBO有100%的错误. 在模型中, IRv2adv-ens中最强大的, 在清晰图像上的前1个误差为20.6%, 对Perlin-BO为89.5%, 效果不是很好. Perlin噪声对抗性的例子. 对于前5个错误, 分类更好, 因为更容易做出正确的前5个预测. 然而, 对于所有类别的图像几乎一半的对抗性示例仍然会出现错误分类. 在最糟糕的情况下, Inception v3在清洁图像上的前5个误差为7.5%, 对Perlin-BO的前5个误差为71.2%. 最强大的分类器IRv2adv-ens在干净图像上有5%的前5个误差, 对Perlin-BO有45.2%的误差. 分类器的比较 攻击性的比较 对于整体性能, Perlin-BO优于Perlin-R. 这是合理的, 因为前者使其查询适应输出而后者不适应. 然而, Perlin-BO优于Perlin-R的优势在于前1个错误比前5个错误更大. 他们的前5个错误之间的差距非常小, 所有结果的差距不到5个百分点. 这表明我们使用的程序性噪声函数受限于它能够以多大的精度逃避目标分类器的程度. 我们假设可以通过为生成函数添加更多复杂性来改进这一点. 从理论上讲, Perlin-BO优于Perlin-R的主要优点是它可以使用较少的查询来实现规避. 但是, 在比较前5个错误与查询数量时, 这一点并不明显. 如图2中的第二个图所示, 对于前5个误差, Perlin噪声攻击的性能没有太大分离. 这个结果可能归因于增加前5个误差的困难以及我们选择的程序噪声函数的简单性. 我们假设我们当前的Perlin噪声攻击已经达到了这个设置中前5个误差的最佳可能性能. 当控制ε时, 攻击在较低的扰动预算中自然不太有效, 如图4所示. 这阻碍了我们的攻击, 因为它限制了我们产生的Perlin噪声的空间. 对于ε= 4/256, 我们的Perlin噪声攻击几乎不会对随机噪声产生影响, 特别是对于前5个误差. 这种性能差距并不显着, 这意味着我们的攻击在这种极其严格的限制环境中无效. 之后, Perlin噪声攻击得到改善, Perlin-BO的性能从ε≥8/256处起飞. 实际上, 较小的ε扰动预算导致更具说服力的对抗性示例, 因为对原始图像的篡改并不明显. 即使有更严格的ε, Perlin攻击也会导致50%或更多的前1个错误. 查询次数的比较 随着查询数量的增加, 性能有一个稳定的基础, 这表明我们基本的Perlin噪声攻击的有效性的理论上限, 考虑到它的设置和约束. 以Perlin-BO为100个查询作为我们的上限, 我们观察到Perlin-R和Perlin-BO在他们的前几个查询(20以下)中接近这个上限. 注意Perlin-BO如何比PerlinR更均匀或更差, 但是在超过10个查询时它会超过它. 由于攻击在100次查询之前的性能水平很高, 因此不需要更大的查询预算. 我们的初步结果表明神经网络对Perlin噪声攻击非常脆弱. 这很明显, 对于大部分图像, 我们成功的对抗性示例仅使用少量查询(少于20个)生成. 相比之下, 其他不可转移的黑盒攻击, 如[12], [22], [23], 需要数千个查询来逃避ImageNet中的单个图像. 即使使用随机非自适应Perlin-R攻击, 我们也可以在几个查询中达到上限. 这进一步证明了测试分类器对Perlin噪声对抗性实例的不稳定性. 这些结果提出了单个Perlin噪声攻击在多个图像中作为对抗扰动的概括性的问题. 给定一组固定的参数θ, 我们想要知道所有图像中所得到的对抗扰动G(θ)的逃逸率. 另外, 我们想知道这种情况发生的程度, 以及我们是否可以找到一组最佳参数来逃避给定分类器的最大数量的图像. Perlin-R 对于前1个错误, 图6显示Perlin噪声在所有分类器中达到至少26%的误差. 因此, 分类器非常脆弱, 因为每个随机选择的Perlin噪声设置本身就是对大部分图像的有效对抗扰动. 对于对侧训练的模型IRv2adv和IRv2adv-ens, 至少有一半的Perlin噪声设置达到最小40%的误差. 同样, 至少有一半的Perlin噪声攻击分别对IRv2和v3分类器至少有50%和60%的误差. 应该强调的是, 单一扰动会导致这种规模的错误分类. 对于IRv2adv和IRv2adv-ens, 实验中最佳单个Perlin噪声扰动所达到的最大误差为约52%, 而对于IRv2和v3, 该数值分别为约62%和76%. 这些对抗性扰动的普遍性是显着的, 特别是随着这些Perlin噪声设置的随机选择. 对于前5个错误, 结果并不像通常情况下的结果那样明显. 尽管如此, 结果仍然认为至少有一半的Perlin噪声设置将导致所有分类图像的至少一个图像的错误分类, 如图6所示. Perlin-BO 我们在表II中显示了IRv2分类器的所有训练集大小的完整结果. 其他分类的尺寸差异很大, 因此我们不在此处加以说明. 与不同训练集合大小相关的差异最多为7个绝对百分点. 这与训练集之间的差异形成鲜明对比, 训练集之间的差异是彼此相比的2到200倍. 结果的差异可归因于Perlin-BO对训练数据的过度拟合, 对于较小的训练集, 这一点更为明显. 尽管有这样的解释, 结果仍然在一个狭窄的范围内. 我们的验证集中的图像和标签分布非常均匀, 因此结果的相似性表明, 除了可能导致逃避的常见Perlin噪声模式之外, 所有类别的共同点都存在. 在表III中, 我们关注的是100个样本的中等训练集. 此设置可平衡攻击性能和查询数量. 我们看到Perlin噪声设置的一小部分实现了类似于我们广义Perlin-BO攻击的性能. 例如, Perlin-BO在分类器v3上实现了59.1%的前5个逃避, 而图6中的Perlin-R结果表明, 在相同的分类器中, 不到2%的Perlin噪声设置达到至少58%的前1个逃避 由于Perlin-BO和Perlin-R的结果具有相似性, 因此可以合理地假设这是我们选择的程序噪声函数中最强的对抗性扰动. 然而, 这可以通过更复杂的生成函数来改进. 对低维数据集(如MNIST和CIFAR)的攻击在文献中更为突出. 其中许多攻击也是白盒, 或者不容易扩展到大型图像数据集. 此外, 这些攻击通常需要每个图像多达数千次迭代, 如[22]和[23]. 我们的工作处于不同的环境中, 具有更现实的约束. 现有的黑盒攻击对查询来说是无效的; 那些提高效率的人依赖于可转移性, 这就是一个更强大的对手. 尽管这些攻击在[20]和[25]中相对成功, 但它们仍然会产生构建和训练替代模型的额外开销. 它不仅成本高昂, 特别是对于大型数据集, 而且还需要访问类似的数据集和与目标模型相当的模型. 可转移性攻击使用快速梯度方法快速生成对抗性示例. 通常, 在通过重试执行可转移性时, 每个样本需要一些查询. 我们考虑的攻击是FGSM, Step-LL, R + StepLL, 以及[20]和[21]中所示的两步Iter-LL. 作为参考, 我们还将我们的结果与这些快速梯度攻击的白盒版本进行比较. 我们将这些攻击组称为“快速渐变攻击”(FGA), 并在用作白盒(FGA-W)和黑盒(FGA-B)攻击时进行区分. 为了比较, 我们在FGA的相同分类中使用[21]的结果. 为了补偿测试数据集的变化, 我们比较了干净图像错误率与攻击产生的错误率之间的差异. 由于网络具有相同的权重并且测试图像来自相似的分布, 因此在95%的置信区间内结果的差异应该可以忽略不计. 我们将现有方法与我们个别的Perlin噪声攻击进行比较, 因为它们旨在最大化每个图像的规避, 而广义版本的目的是找到避开许多图像的单个扰动. 表IV中报告的结果表明, Perlin噪声攻击均显着优于基于可转移性的黑盒攻击FGAB. 应该注意的是, 对抗性和整体对抗性训练被设计为对抗FGAB的防御, 因此IRv2adv和IRv2adv-ens的这个结果应该不足为奇. 如前所述, 对抗性训练使得这些分类训练略微好一点, 但对于Perlin噪音攻击并没有那么明显. 两种Perlin噪声攻击都比快速白盒攻击更好. 对于FGA-W, 应该注意的是, IRv2adv经过对抗训练可以直接抵御白盒攻击, 并且IRv2adv-ens上的整体训练并没有使他们的模型对FGA-W具有鲁棒性[21]. 特别是Perlin-BO攻击, 即使我们考虑90%的置信区间, 也能通过显着的边缘获得更好的结果. 同样有趣的是, Perlin-R实现了与白盒攻击相当或更好的结果, 因为它的参数选择完全是随机的. 关于查询效率, FGA-B消除了我们的Perlin噪声攻击, 因为代理模型允许他们在查询目标模型之前重新确定其对抗性示例. 然而, Perlin噪声攻击能够在每个图像的前10个查询中导致其 大部分逃逸, 这对于黑盒攻击来说是相当低的. 通过使用Perlin-BO的通用版本创建可转移性攻击, 还可以将查询数量大大减少到类似于FGA-B的级别. 我们假设我们的Perlin噪声攻击利用了学习算法中的固有弱点以及它们对图像中模式的解释. 相比之下, 诸如FGA的现有方法主要关注基于梯度的优化以解决目标函数. 由于高维度, 基于梯度的算法变得难以解决, 计算成本昂贵, 并且可能陷入局部最优的口袋中.
C. 贝叶斯优化
贝叶斯优化的第一个组成部分是我们目标函数的概率替代模型. GP是对函数分布的高斯分布的推广, 通常用作贝叶斯优化的替代模型[51]. 我们使用GPs, 因为它们引起了对分析易处理的目标函数的后验分布. 这使我们能够在每次迭代后更新我们对目标函数的看法[28].
贝叶斯优化中的第二个组件是一个获取函数, 它描述了查询的最佳性. 直观地, 采集函数评估候选点在下一次评估中的效用, 并且通常将其定义为使得高采集对应于目标函数的潜在最优值[52].D. 参数选择
如前面部分所述, G的参数是θ= {ν, ω, κ, νsine}, 即:Perlin噪声函数的频率, 倍频的数量, 缺项和正弦颜色映射函数的频率. 优化这些参数需要我们首先确定它们的边界, 超出这些边界的变化不会影响所得图像的外观.
通过我们的生成函数可以实现对逃避的实现, 因此我们设置最大预算qmax以将查询数量保持在合理的范围内. 对于贝叶斯优化, 高斯过程回归中的精确推断是O(q3), 其中q是观察或查询的数量. 该成本是由于在更新后验时协方差矩阵的反演. 由于这个限制, 并且基于我们的初步实验, 我们设置qmax = 100.这个上限被证明是足够的, 因为实验表明攻击者在q接近这个qmax之前的性能平稳. 我们可以通过稀疏GP来降低计算复杂度[53], [54], 这提供了估计精度和可扩展性之间的权衡. 然而, 鉴于攻击的有效性, 标准GP对我们来说是一个非常合适的选择.
距离度量是用于量化图像之间的相似性的有用启发法. 通常的度量标准是“p”范数, 因为如果图像的差异r满足||r|| <ε, 那么图像在视觉上是相似的, 以获得足够小的ε. 对于∞范数, 任何坐标之间的最大可能差异是由ε限制的, 因此我们对所有点都有||ri|| <εi. 由于其像素方式构造, 我们的噪声函数最好用∞范数测量. 对于ImageNet数据集, 我们遵循先前研究[20]和[21]中的∞≤16/256的∞范数上界5. 实验和结果
A. 实验设置
我们使用经过预先训练的ImageNet模型[19], 它们具有Inception v3 [55]和Inception ResNet v2 [56]架构. 这些模型实现了最先进的性能, 在标准数据集上训练时, 前5个损失精度分别为6.1%和4.8%. 这些网络将尺寸为299×299×3的图像作为输入.
在我们的第一个实验中, 我们对来自验证集的1,000个随机图像进行每个图像的攻击, 每个图像的预算最多为100个查询.
在我们的第二个实验中, 我们的目标是找到强大的对抗性Perlin噪声设置, 这些设置可以在整个验证集中进行推广. 这些攻击在来自验证集的8,000个随机图像上进行评估.
攻击性能使用前1和前5错误率来衡量. 这些被评估为小于或等于 ε = 16 / 256 ε= 16/256 ε=16/256的∞范数扰动约束. 相应Clean数据集上的分类器的错误率被用作参考. 对于单个攻击, 我们在几个ε和qmax设置中比较此错误率. 我们后来将我们的结果与[21]及其对这些分类的FGSM和Step-LL攻击进行了比较.B. 个体的Perlin噪声攻击
Inception ResNet v2神经网络比Inception v3神经网络更具弹性, 与[21]的结果一致. 这可以归因于具有更多参数和层的网络. 在Inception ResNet v2网络中, 对抗和整体训练略微提高了其对抗Perlin噪声攻击的稳健性. 这种边际改进可以归因于在增强数据集上训练的分类器, 其中图像包含结构化的对抗性噪声. 但是, 我们注意到这些改进仅为Perlin噪音攻击提供了边际防御.
Perlin噪声攻击都大大优于像素随机攻击. 最强大的攻击是Perlin-BO, 但Perlin的两次噪声攻击都会对分类器造成严重的错误率.
在图5中, 我们观察到分类错误在第一个5到10个查询中显着增加, 并且改进开始在大约20个查询时减慢. 前者显示了分类的脆弱性, 因为对抗性的Perlin噪声攻击的初始查询足以导致错误分类.C. 通用的Perlin噪声攻击
我们测试了1,000个随机选择的Perlin噪声设置并在我们的验证集上评估了它们的性能. 清洁图像上分类器的前1和5错误分别约为20%和6%.
在这里, 训练或验证阶段使用贝叶斯优化来进行单一的Perinnoise扰动, 从而最大化从训练数据集中逃避的图像数量. 我们最初认为拥有更大的训练集会使验证集上的性能显着提高. 但是, 我们的结果表明, 相对于训练集大小, 改进是递增的. 这具有显着的意义, 因为黑盒对手可以通过较小的训练集实现类似的攻击性能, 这意味着校准攻击所需的数据和查询更少D. 相关工作的对比