Improving Adversarial Transferability via Neuron Attribution-Based Attacks

在本文中,我们提出了基于神经元归因的攻击 (NAA),它通过更准确的神经元重要性估计来进行特征级攻击。具体来说,我们首先将模型的输出完全归因于中间层中的每个神经元。然后,我们推导出神经元属性的近似方案,以极大地减少计算开销。最后,我们根据归因结果对神经元进行加权,并发起特征级攻击。广泛的实验证实了我们的方法在最先进的基准测试中的优越性。

x:初始图片

z:干净图像对应的真实标签

F(.):分类器模型,F(x):输入图像x的输出

y:第y层的激活值,y_{i}表示该特征图上第j个神经元的激活值

目标:在满足约束条件\left \| x-x^{adv} \right \|_{p}<\epsilon的情况下,通过在输入图像上注入不易察觉的扰动来误导模型,从而制造出对抗样本x^{adv},本文主要研究无穷范数下的情况。

将输入图像相对于基线图像x'的属性定义为:

 等式1是F沿直线x'+\alpha(x-x')梯度的路径积分。

如果F (x ')≈0,则A≈F (x)。在实践中,一个黑色的图像(即x ' = 0)可以很好地作为这个基线.

将属性A归到y层的每个神经元上面,表示为x'+\alpha(x-x')=x_{\alpha},神经元y_{j}的属性为:

 沿着直线采样n个虚像,用利曼和来近似积分,改变求和顺序后:

Improving Adversarial Transferability via Neuron Attribution-Based Attacks_第1张图片

 为了节约计算时间,假设上面两部分是线性独立的,两个梯度序列是零协方差。将方程转化为:

 

这其中y_{i}'是输入为黑色图像时神经元的激活值。\bigtriangleup y_{j}=y_{j}-y_{j}'

 是Integrated AttentionIA(y_{j}),名字反映了从基线图像到输入的直线上的梯度与神经元的积分

 基于神经元属性的攻击:Neuron Attribution-based Attack (NAA )

由于最小化输出神经元的总归因可以同时减少积极归因和扩大消极归因,我们考虑由计算的同一层神经元的所有归因

 f_{p}(A_{yj})神经元的正属性,-f_{n}(-A_{yj})为神经元的负属性。

因此目标层y上所有神经元的加权归属为; 

Improving Adversarial Transferability via Neuron Attribution-Based Attacks_第2张图片

NAA 目标:解决以下约束最小化问题:

 采样MIM来解决这个问题.

我们认为NAA具有强可转移性的原因有两个方面。
首先,神经元归因为神经元重要性的建模提供了一种简单而有效的方法,它反映了真实的归因对输出的影响。
此外,独立假设简化了神经元归属的表示,同时提高了生成的对抗示例的可转移性。

NAA的三个因素

第一个因素是目标特征映射层,找出那一层容易制造可转移的对抗样本(浅层、中间层、深层)

第二个因素为积分步数n,找出它与可转移性的关系

最后一个因素是加权归因,包括γ, fp(·)和fn(·),以检验不同极性和值的神经元归因的重要性。

攻击深层可以获得最佳的白盒攻击性能

攻击中间层可以获得更高的可转移性能,

浅层包含了输出影响较小的底层特征

深层包含了高级特征,对深层攻击会过度拟合源模型,无法构建可转移的对抗性。

攻击中层可以获得最好的性能。

你可能感兴趣的:(对抗攻击,机器学习,人工智能)