Label-Only Model Inversion Attacks via Boundary Repulsion

本文提出了一种边界排斥模型反转:BERP-MI,该模型只使用目标模型预测标签反转私有训练数据,算法的关键思想是评估模型在球体上的预测标签,然后估计到达目标类质心的方向。

文章的主要思想与白盒类似,仍然尝试在目标模型下合成目标类最大可能性输入,然而只有在标签的设置下,不能直接计算梯度信息并利用他来知道数据综合,本文认为解决这个挑战的关键见解就是给定类的高可能性区域通常是位于类的中心,远离决策边界,本文的这种算法就是允许合成图像迭代的远离决策边界

文章的主要贡献:

  1. 提出了第一种仅用于标签模型反转攻击的算法。
  2. 通过证明算法中使用的更新与梯度一致性,并分析非线性模型的一致性误差误差,在线性目标模型情况下为算法提供了理论证明。
  3. 评估了对一系列模型架构和数据集的攻击,然后表明,尽管利用的目标模型信息较少,但我们的攻击仍大大优于基于置信度的黑箱攻击,并取得了与最先进的白箱攻击相当的性能。

算法的主要流程可以理解为:

  1. 查询球体上的标签,估计球体上可能指向目标标签类的方向
  2. 根据估计的方向逐步移动,直到找到球体适合目标类
  3. 增加球体半径,知道攻击达到查询预算

攻击模型:

目标模型: f:[0,1]^{d}\rightarrow \mathbb{R}^{\left | C \right |}

目标类c^{*}\in C

模型输入的维度:d

C:所有类标签的集合

|C|:标签集的大小

本文给定目标分类网络f,攻击者可以在任意输入x处查询目标网络,并得到相应的预测标签

\hat{y} = arg \ max_{c\in C }f_{c}(x)

目标标签:

如果目标是找到n个输入图像,使n个预定义标签集合最大化时,攻击者可以是针对性

如果目标是找到n个输入图像,使任意n个标签集合最大化时,攻击者可以是无针对性的的

问题公式化:

在不损失通用性的情况下,单个目标标签的攻击问题公式为:

M_{c^{*}}(x)= f_{c^{*}}(x)-max_{c\neq c^{*}}f_{c}(x)

M_{c^{*}}(x ):目标类别c^{* }之间logit(也可理解为置信度得分)的差异以及其他类中最可能的标签

当x被预测到目标类,有c^{*}=arg\max_{c \in C }f_{c}(x)\:M_{c^{*}}(x)>0

此时,MI转换成优化问题,寻求的输入在目标类的置信度和其他类的最高自信度之间实现最大差异

 为了解决在高维连续数据空间中,进行优化容易陷入与任何有意义的图像都不对应的局部最小值,本文用公共数据集训练GAN,然后对GAN的生成器进行优化。

G(z):公共训练的生成器z \in d' \;d'<d

 MI就更新为优化z的函数:

  不能直接用梯度优化,也不能用零阶优化算法(因为它们需要访问模型输出的置信分数)

BERP-MI算法:

算法流程:

  1. 首先对球体上的点进行采样,然后查询采样点的标签。
  2. 没有预测到的目标类中的点表示我们要远离的方向,对这些值取平均,并沿着与平均相反的方向移动。
  3. 如果所有的点都预测到目标类中,增加半径。

公式

Label-Only Model Inversion Attacks via Boundary Repulsion_第1张图片

 \Phi_{c^{*}}(z)标记未预测到目标类中的点

梯度估计公式:

u_{n }:在半径为R的d’维随机均匀采样的点

N: 采样点的个数 

更新z:

 BREP-MI 是从正确分为目标类的初始点开始,为了确保这一点直接生成属于目标类的点。

伪代码:

Label-Only Model Inversion Attacks via Boundary Repulsion_第2张图片

 在线性模型下,以下定理用来描述所提出的估计值与真实值之间的一致性;

Th1:

f:具有线性分类的模型

z:目标类中任意的点,M_{c^{*}}(z)>0:

Label-Only Model Inversion Attacks via Boundary Repulsion_第3张图片

 这表明对于梯度估计,估计量渐进无偏。结果表明,随着R的增加,估计的梯度将与真实梯度一致。然而,在某个拐点之后,增大半径只会降低估计的精度。

模型评估

本文评估方式指标为:

  1. BREP-MI能否成功地攻击具有不同体系结构和不同数据集的深层网络?
  2. BREP-MI需要多少查询才能成功执行攻击?
  3. 私有数据和公共数据之间的分布变化如何影响攻击性能?
  4. BREP-MI对初始化和球体半径有多敏感?

最终本文发现,本文提出的方法在不同的数据集和模型架构上都有效,BERP-MI与最先进的白盒攻击效果相当,优于所有其他基线,比黑盒攻击性能好很多。

你可能感兴趣的:(对抗攻击,算法,机器学习,人工智能)