学习笔记——Exploiting Unintended Feature Leakage in Collaborative Learning(协作学习中的非预期特征泄露研究)

原文地址:https://www.computer.org/csdl/proceedings-article/sp/2019/666000a497/19skfEG4cHC

协作机器学习及相关技术允许多个参与者各自训练自己的模型,然后定期进行模型更新交换,进而构建联合模型。

但在彼此交换模型更新的同时会造成数据的泄露,并且利用这些数据可以进行主动或者被动成员推理攻击

研究内容:

  1. 展示了对抗攻击者可以推断出其它训练集中确切数据点的存在;例如,其他人的训练数据中的特定位置。
  2. 展示了对抗攻击者是如何推断出只包含训练数据子集且与联合模型要捕获的属性无关的属性。(例如,可以获得一个人何时首次出现在二元性别训练分类器的照片中。)
  3. 通过对各种任务、数据集和学习配置的攻击,分析它们的局限性,并且分析可能的防御。

基础知识

传统机器学习是将所有的数据集合起来进行集中的训练;而协作机器学习是将数据分别在不同的点进行训练(更新各自的模型),然后将各个模型更新的结果定期进行交换,从而构建联合模型。可以说协作机器学习是传统机器学习的替代方法。

研究问题

从模型更新可以推断出参与者的培训数据集是什么?(PS:攻击者推断训练的数据集是什么?)

本文重点研究“非预期”特征(即,对于训练数据的某些子集保持的属性,但对于所有类成员通常不是)。

此设置中的基本隐私违规是成员资格推断(即,给定一个确切的数据点,确定它是否用于训练模型)。

  1. J. Hayes, L. Melis, G. Danezis, and E. De Cristofaro. LOGAN: Membership inference attacks against genera- tive models. In PETS, 2019.
  2. R. Shokri, M. Stronati, C. Song, and V. Shmatikov. Membership inference attacks against machine learning models. In S&P, 2017.

这两篇之前的文章已经描述了主动和被动成员推理攻击,但在协作学习中又有新的途径。例如,一个攻击者可以推断出是否使用特定位置配置文件在 FourSquare 位置数据集上训练性别分类器,这具有99%的精度和完美的反回。

然后调查了主动和被动属性推理攻击,这些攻击在协作学习中,攻击者可以推断出其它参与者训练数据的属性(这些属性与整个类无关,甚至独立于功能描述模型的类);但没有研究变量,例如,推断的属性何时出现或消失在训练数据集中。

对于各种数据集和ML任务

展示了

基于[52]R. Shokri and V. Shmatikov. Privacy-preserving deep learning. In CCS, 2015.(隐私保护深度学习)

和基于[35]H. B. McMahan, E. Moore, D. Ramage, S. Hampson,     et al. Communication-efficient learning of deep networks from decentralized data. In AISTATS, 2017. (从分散数据中实现深度网络的通信效率学习) 的

多方联合学习的针对双方和多方协作学习的成功推理攻击

例如,当模型在LFW数据集[28]上训练以识别性别或种族时,我们推断训练照片中的人是否戴眼镜;相比之下,先前的属性推断攻击[2,25]仅推断出表征整个类的属性。

重大发现(并且论证)

现代机器学习模型提出了各种特征的单独内部表示,其中一些与所学任务无关。(PS:也就是说机器学习所提取的某个样本的某个属性可能与最终训练模型所含有的属性。)

此外,还测量攻击性能与参与者数量的关系。

[35]H. B. McMahan, E. Moore, D. Ramage, S. Hampson,     et al. Communication-efficient learning of deep networks from decentralized data. In AISTATS, 2017.中的模型平均联合学习并未揭示个别梯度更新,大大降低了对手可用的信息。但在此情况下,仍然成功的进行了攻击。例如,推断出某人的照片出现在训练数据中。

最后,评估了可能的防御措施——共享更少的梯度、减少输入空间的维数,发现这并不能抵挡我们的攻击。

总结

本文提出并评估了几种针对协作学习的推理攻击。这些攻击使得恶意参与者不仅可以推断成员,还可以推断表征训练数据子集的属性(与联合模型旨在捕获的属性无关)。

深度模型在训练时,会产生许多与训练任务不相关的特征。协作学习在模型更新时,会向攻击者泄露这些“无意识”特征的信息。

结果表明:

1.非预期功能的泄漏使协作学习暴露于强大的推理攻击;

2.选择性梯度共享,降低维度和辍学等防御措施无效。

这也激励了未来产生更好的防御技术,

1.仅学习与给定任务相关的特征的技术[15,42,43]可以潜在地用作“最小特权”协作训练模型的基础。

2.可以检测操纵模型的主动攻击以学习额外的特征。

3.如果参与者级差异隐私机制能够在协作学习涉及相对较少的参与者时产生准确的模型,那么这仍然是一个悬而未决的问题。

你可能感兴趣的:(机器学习安全)