深层神经网络的一个有趣的特性是存在对抗性样本,它可以在不同的体系结构之间进行转换。这些可转移的通用示例可能严重阻碍基于神经网络的深层次应用。以往的工作主要是利用小规模数据集来研究可移植性。在这项工作中,我们首先对大模型和大规模数据集的可转移性进行了广泛的研究,而且我们也是第一个研究目标敌方示例及其目标标签的可转移性的。我们研究了非针对性和针对性的对抗性例子,并表明虽然可转移的非目标性对抗性示例很容易找到,但是使用现有方法生成的有针对性的对抗性示例几乎不会随目标标签一起转移。因此,我们提出了新的基于集成的方法来生成可传输的对抗性示例。使用这些方法,我们观察到大部分有针对性的对抗性例子能够第一次与他们的目标标签一起转移。我们也提出了一些几何研究,以帮助理解可转移的对抗性例子。最后,我们证明了使用集成方法生成的对抗性示例可以成功地进行攻击Clarifai.com网站一个黑盒图像分类系统。
总而言之,本文主要的研究内容:1、无目标攻击和有目标攻击在大规模数据集上的可转移性(即ImageNet);2、新的集成方法来生成可转移的有目标/无目标攻击;3、对于攻击的转移性的几何理解。
第一部分介绍就不看了=-=没啥意思,这部分主要研究了可转移性
这部分主要是讲的无目标攻击的原理和生成方法。。。首先是无目标攻击的原理解释,用两个条件就表示出来咯,感觉非常简洁:
f θ ( x ∗ ) ≠ y f_{\theta}(x^*) \neq y fθ(x∗)=y (1)
d ( x , x ∗ ) ≤ B d(x, x*)\leq B d(x,x∗)≤B (2)
B就是表示失真的最大值。。。头回用latex敲公式=-=有点意思哦!
Optimization-based approach 废话不多说,直接上公式
a r g m i n x ∗ λ d ( x , x ∗ ) − ℓ ( l y , J θ ( x ∗ ) ) argmin_{x*}\lambda d(x,x^*)-\ell(l_y, J_\theta(x^*)) argminx∗λd(x,x∗)−ℓ(ly,Jθ(x∗)) (3)
这样再看有点看不懂了又=-= λ \lambda λ是用来平衡上面的(1)和(2)的,然后loss function ℓ \ell ℓ 是用来近似(1)的。。。现在又搞不清argmin是啥意思了。。。明天问下,这么看好像只是做了个优化?
Fast gradient sign (FGS) 在我这算最常见的攻击方法了。。。话虽这么说但目前也没真正实践一下,害。公式如下
x ∗ ← c l i p ( x + B s g n ( ▽ x ℓ ( l y , J θ ( x ) ) ) ) x^*\leftarrow clip(x+Bsgn(\triangledown_x\ell(l_y, J_\theta(x)))) x∗←clip(x+Bsgn(▽xℓ(ly,Jθ(x))))
这里的clip函数说是用于将x的每个维度裁剪到像素值的范围内?就是[0,255]。。。 ℓ \ell ℓ函数和上面的方法一样的。sign函数是铁定要么-1要么1的。
FGS可以生成接近 L ∞ L_\infty L∞范数界限的对抗性样本,嗯。
Fast gradient (FG) 和FGS比较像,但FGS是冲着梯度相反的方向去,FG是沿着梯度的方向。上公式:
x ∗ ← c l i p ( x + B ▽ x ℓ ( l y , J θ ( x ) ) ∣ ∣ ▽ x ℓ ( l y , J θ ( x ) ) ∣ ∣ ) x^*\leftarrow clip(x+B\frac{\triangledown_x\ell(l_y, J_\theta(x))}{||\triangledown_x\ell(l_y, J_\theta(x))||}) x∗←clip(x+B∣∣▽xℓ(ly,Jθ(x))∣∣▽xℓ(ly,Jθ(x)))
这里除二范数,理所当然可能会觉得和sign函数一样。。但对于高维来说差距非常之大。
以及所有的损失函数 ℓ \ell ℓ全部都是 ℓ ( u , v ) = log ( 1 − u ⋅ v ) \ell(u,v)=\log(1-u\cdot v) ℓ(u,v)=log(1−u⋅v)来自**Nicholas Carlini and David Wagner. Towards evaluating the robustness of neural networks. arXiv preprint arXiv:1608.04644, 2016.**马一手有时间看一下。
有目标和无目标攻击的区别就是(1)式,从 ≠ y \neq y =y换成 = y ∗ =y^* =y∗这样。。。然后在方法中加号统统换减号减号换加号这样。再把原来的y换成y*,嗯是我懒了=-=
选取5个模型,ResNet-50,ResNet-101,ResNet-152,GoogLeNet以及VGG-16.并经过ImageNet做训练集?然后挑了100张原图被判定为正确的图作为测试集,对于无目标攻击来说计算成功率百分比,越低说明迁移性越好;对于有目标攻击来说要被分类为目标类才算成功,,matching rate越高越好。结果仅依赖于top-1 正确率。
用RMSD来判断失真(均方根偏差),即 d ( x , x ∗ ) = ∑ i ( x i ∗ − x i ) 2 / N d(x,x^*)=\sqrt{\sum_i(x^*_i-x_i)^2/N} d(x,x∗)=∑i(xi∗−xi)2/N
结果大概就是无目标攻击的转移性比较优越,有目标的就比较难看了。。。其实蛮显而易见的,毕竟有目标攻击必须要分类到目标类才算成功。
另外作者还试验了高斯噪声的迁移性,结果比用专门生成对抗样本算法的结果差很多。
使用FG和FGS的最小可转移RMSD。图1描绘了从VGG-16到ResNet-152的最小可转移RMSD的累积分布函数(CDF),使用非目标FG(图1a)和FGS(图1b)。从图中我们可以观察到FG和FGS都可以找到100%的可转移的敌对图像,RMSD分别小于80.91和86.56。此外,FG方法可以产生比FGS更小的RMSD的可转移攻击。一个潜在的原因是当FGS最小化失真的L∞范数时,FG最小化其L2范数,L2范数与RMSD成正比。
上面这一段看不懂=-=
如其名,就是把用模型的集合生成对抗性样本。公式如下:
a r g m i n x ∗ − log ( ( ∑ i = 1 k α i J i ( x ∗ ) ) ⋅ l y ∗ ) + λ d ( x , x ∗ ) argmin_x^*-\log((\sum\limits_{i=1}\limits^{k}\alpha_iJ_i(x^*))\cdot l_{y^*})+\lambda d(x,x^*) argminx∗−log((i=1∑kαiJi(x∗))⋅ly∗)+λd(x,x∗),其中 ∑ i = 1 k α i = 1. \sum\limits_{i=1}\limits^{k}\alpha_i=1. i=1∑kαi=1.
比较遗憾的是这种方法仅对Optimization-based approach有效,对FG和FGS都没啥效果。。作者推断原因可能是在整个一维子空间里目标标签太少。FG和FGS都是作用于一维子空间的。
这里实在是没看太明白,抄一下结果以便日后回看:
此外,我们在同一平面上绘制所有模型的决策边界。我们可以观察到
•边界彼此非常吻合。这部分解释了为什么非目标对抗图像可以在模型之间传输。
•沿梯度方向的边界直径小于沿随机方向的边界直径。一个潜在的原因是,沿梯度方向移动一个变量可以显著改变损失函数(即,地面真实标签的概率)。因此,沿着梯度方向,它比随机方向移动出地面真值区域的步骤要少。
•一个有趣的发现是,即使我们沿着x轴向左移动,这相当于最大化地面真相的预测概率,但它到达边界的时间也比沿着随机方向移动要快得多。我们将其归因于损耗函数的非线性:当失真较大时,梯度方向也会发生显著变化。在这种情况下,沿着原始梯度方向移动不再增加预测地面真实标签的概率(参见附录中的图7)。
•对于VGG-16模型,在与地面实际相对应的区域内有一个小孔。这可能部分解释了为什么存在失真较小的非目标对抗图像,但传输效果不佳。这个洞在其他模型的决策平面中不存在。在这种情况下,这个洞中的非目标敌方图像不会传输。
That’s all.