发表于ICLR2017,论文地址:https://arxiv.org/pdf/1611.02770——深入研究可迁移的对抗样本和黑盒攻击
迁移性是指一个模型生成的一些对抗样本也可能被另一个模型错误分类。
这篇文章其实是基于 Transferability in Machine Learning: from Phenomena to
Black-Box Attacks using Adversarial Samples 的改进和进一步研究,第一次使用不同方法在大规模数据集上生成targeted 和no-targeted对抗样本研究迁移性。迁移性实验的成功,也让作者对为什么能迁移成功进行了探究,不同于以往的理论或者经验分析,作者从模型的几何特性(geometric properties)进行了分析。
实验表明,no-targeted对抗样本可以很好的迁移,但是targeted对抗样本迁移性较弱,所以采用了ensemble model(集成模型)的方法,增大了迁移性。
以前的工作主要研究使用小规模数据集的可迁移性。在这项工作中,我们是第一个对大型模型和大规模数据集的可迁移性进行广泛研究的人,我们也是第一个研究targeted对抗样本及其targeted label的可迁移性的人。我们研究了非目标对抗样本和目标对抗样本,并表明虽然可转移的非目标对抗样本很容易找到,但使用现有方法生成的目标对抗样本几乎不会随目标标签一起转移。因此,我们提出了新的基于集成的方法来生成可转移的对抗样本。
(以前的工作其实指的是这篇:Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples,idea中有链接)
(开始几段就是讲了讲对抗样本的发展过程,以及迁移性的存在;然后介绍了本文的工作内容,包括非定向迁移的有效性,定向的集成攻击迁移等)
主要贡献:
(主要讲的是对抗攻击问题的定义)
2.2.1 生成非定向对抗样本的方法
f θ ( x ∗ ) ≠ y ( 1 ) ; d ( x , x ∗ ) ≤ B ( 2 ) f_{\theta}(x^*)\neq y (1); d(x,x^*) \leq B (2) fθ(x∗)=y(1);d(x,x∗)≤B(2)
其中 d(·,·) 是量化原始图像与其对抗样本之间距离的度量,B称为失真,是该距离的上限。
基于优化
a r g min x ∗ λ d ( x , x ∗ ) − l ( 1 y ∗ , J θ ( x ∗ ) ) arg \min_{x^*} \lambda d(x,x^*)-l(1_{y^*},J_{\theta}(x^*)) argx∗minλd(x,x∗)−l(1y∗,Jθ(x∗))
其中 1 y 1_y 1y是ground trurh标签 y 的 one-hot 编码, l l l是衡量预测与ground truth之间距离的损失函数,λ 是平衡约束 (2) 和 (1) 的常数。这里,损失函数 l l l用于逼近约束(1),它的选择会影响搜索对抗样本的有效性。
损失函数选择的是 l ( u , v ) = l o g ( 1 − u v ) l(u,v)=log(1-uv) l(u,v)=log(1−uv),来源于CW攻击(论文pdf)
FGS
x ∗ = c l i p ( x + B s g n ( ∇ x l ( 1 y , J θ ( x ) ) ) ) x^*=clip(x+Bsgn(\nabla_x l(1_y,J_{\theta}(x)))) x∗=clip(x+Bsgn(∇xl(1y,Jθ(x))))
其中clip(x) 用于将 x 的每个维度裁剪到像素值的范围内,即本文中的 [0, 255]。 l ( u , v ) = l o g ( 1 − u v ) l(u,v)=log(1-uv) l(u,v)=log(1−uv)
FG
(与FGS类似,就不多介绍了)
一个模型生成的可被正确分类为另一个模型的对抗样本的百分比
来衡量 no-targeted 可转移性,我们把这个百分比称为准确率。较低的精确度意味着更好的非定向可转移性。一个模型生成的被另一个模型归类为 targeted 标签的对抗性样本的百分比
来衡量目标可转移性。我们将这个百分比称为匹配率。更高的匹配率意味着更好的定向可转移性。(主要讲了下实验设置,可以通过调整Adam和λ 的学习率来调整 RMSD。小失真的对抗样本可以攻击成功但不能很好地迁移(附录表15和表16)。增大失真,lr 设置为4,进行实验)
单元格(i,j)表示为模型 i(行)生成的对抗图像在模型 j(列)上评估的准确性。
通过实验分析:
(基于梯度的快速方法的一个优点是所有生成的对抗样本都位于一维子空间中。通过控制 RMSD 来研究基于梯度的快速方法的有效性)
3.2.1 基于梯度的快速方法的有效性和可迁移性
由于生成的对抗图像的失真 B 和 RMSD 高度相关,我们可以选择这个超参数 B 来生成具有给定 RMSD 的对抗图像。
在表 1 panel B 中,我们使用 FG 生成对抗图像,使得平均 RMSD 与使用基于优化的方法生成的图像几乎相同。我们观察到对角线值都是postive,这意味着FG不能完全误导模型。一个潜在的原因是,FG 可以被视为近似优化,但它是针对速度而不是准确性量身定制的。
另一方面,表中非对角单元格的值对应于为一个模型生成但在另一个模型上评估的对抗性图像的准确性,与基于优化的方法中的对应物相当或更低。这表明 FG 生成的非目标对抗样本也表现出可迁移性。
(实验结果如下)
观察发现:
(1)当在用于生成对抗样本的同一模型上进行评估时,targeted对抗图像的预测可以匹配目标标签
(2)但是 targeted 对抗图像很少能被不同的模型预测为目标标签。我们称后者为目标标签不转移(the target labels do not transfer.)。即使增加了失真,仍然没有观察到目标标签转移的改进
(在Section 4中已经发现定向攻击的迁移效果很不好,所以采用集成的方法)
给定 k 个 softmax 输出为 J1、…、Jk、原始图像 x 及其ground truth y 的白盒模型,基于集成的方法解决了以下优化问题:
a r g min x ∗ − l o g ( ∑ i = 1 k α i J i ( x ∗ ) ⋅ l y ∗ ) + λ d ( x , x ∗ ) arg \min_{x^*} -log(\sum_{i=1}^k \alpha_i J_i(x^*) \cdot l_{y^*})+\lambda d(x,x^*) argx∗min−log(i=1∑kαiJi(x∗)⋅ly∗)+λd(x,x∗)
其中 y ∗ y^* y∗ 是攻击图片的标签, ∑ i = 1 k α i J i ( x ∗ ) \sum_{i=1}^k \alpha_i J_i(x^*) ∑i=1kαiJi(x∗) 是集成的模型, α i \alpha_i αi 是系数。则我们希望生成的对抗图像对于额外的黑盒模型 Jk+1 保持对抗性。
(non-targeted adversarial,实验结果如下)
(基于梯度的方法实验结果见附录)
在本节中,我们展示了模型的一些几何特性,以试图更好地理解可迁移的对抗样本。先前的工作还试图从理论上或经验理解对抗样本的几何特性。在这项工作中,我们检查了在具有 1000 个标签的大型数据集上训练的大型模型,其几何属性以前从未研究过。这使我们能够进行新的观察,以更好地理解模型及其对抗性示例
1.我们评估中不同模型的梯度方向几乎相互正交
不同模型的对抗方向相互正交的
2.使用单个模型的非目标方法的决策边界。
我们研究了不同模型的决策边界,以了解对抗样本迁移的原因。我们选择两个归一化正交方向δ1、δ2,一个是VGG-16的梯度方向,另一个是随机选择的。此二维平面中的每个点 (u, v) 对应于图像 x + uδ1 + vδ2,其中 x 是原始图像的像素值向量
此外,我们在同一平面上绘制所有模型的决策边界
我们观察到: