Towards Efficient Data Free Black-box Adversarial Attack

本文考虑到了更实际的问题,主要针对一个无法访问真实数据和查询目标模型预算有限的黑箱模型。由高效的生成器替代蒸馏模型两部分组成。该方法可以通过少量的查询有效地模拟目标模型,在基于概率和基于标签的黑盒设置下,都能获得较高的成功率。

主要贡献:

  • 本文改变了生成器和替代模型之间的博弈,而不是用不用准确的替代目标不一致性来训练生成器,对于生成器将其目标设定为合成分布接近目标训练数据集的代理数据集,替代模型的目的是用生成的训练样本有效的模拟目标模型。生成器和替代模型具有相对独立的优化过程。
  • 通过平衡数据分布促进数据多样性的角度来缓解无数据替代模型训练中的模式崩溃问题,本文最大化了每批合成数据的信息熵,当其最大化时类别是均匀分布的。此外,本文随机平滑标签,引导生成器合成每个类别的不同数据
  • 为了获得更高的成功率,鼓励替代模型和目标模型具有高度一致的决策边界,本文设计了两种损失函数来促进替代模型的训练
  • 实验证明,我们提出的替代模型是可行的并且我们的方法要好于现在最优的方法。

方法

符号说明:

Towards Efficient Data Free Black-box Adversarial Attack_第1张图片

 框架:

Towards Efficient Data Free Black-box Adversarial Attack_第2张图片

运用生成器G的目标重置为合成分布接近目标训练数据的期望数据,G不直接参与第2阶段的替代模型蒸馏;在模型蒸馏过程中替代模型s的目标是 用生成的数据高效地模拟目标模型T

Step1:数据生成

合成的数据X与真实数据具有相同的分布,所以预测也应该相似,一般用下面损失函数来优化生成器\mathbb{G}:

 但是这种损失的反向传播需要T的梯度信息,这违反了黑箱原理,我们考虑使用替代模型S:

 为了使生成的样本能够覆盖所有类别,本文引入了信息熵来度量标签的混沌程度

假设一共有K个类别,给定概率向量P的信息熵损失为:

 故而,合成数据的信息熵损失L_H表示为正则化项为:

Towards Efficient Data Free Black-box Adversarial Attack_第3张图片

 当L_H取最大值时,类别是均匀分布。

为了进一步提高数据的多样性,本文对真伪标签进行随机平滑,引导生成器在每个类别中合成不同的数据。

总体来看,最小化下面的损失函数来更新生成器,

 \alpha:调整正则化的超参数,\hat{Y}平滑过的标签

对于每个epoch,我们运行t次迭代来合成x。与之前的研究相反,我们的方法不依赖于对抗训练的G。实际上,我们在每个epoch随机初始化G。在这种情况下,G只负责这一阶段生成的合成数据X, G不直接参与模型蒸馏阶段

step2:替代模型蒸馏

S可以模仿T的输出:

 d是距离度量,只有标签时,d代表交叉损失,只有概率时,d代表l_{2}范数

在这个阶段本文重点关注两类数据,本分别提出了两种损失函数:

边界支撑损失:

主要针对替代模型S和目标模型T在分类过程中出现分歧时的情况

 当预测不一致时,函数1表示一个指标

对抗样本支撑损失:

针对样本容易从S转移到T的情况,确保S继续朝着T移动

此损失将产生额外的查询成本,这种损失需要我们再次查询目标模型, \hat{X}是由PGD生成的对抗样本。

总体来看,S的损失函数:

β1和β2控制不同的损失函数的值,默认设置为1。 

算法:

Towards Efficient Data Free Black-box Adversarial Attack_第4张图片

 

              

你可能感兴趣的:(对抗攻击,人工智能,深度学习)