联邦学习中的隐私安全问题探讨

联邦学习中的隐私安全问题探讨

由于本人最近在做联邦学习隐私安全方面的研究,把看过的论文和联邦学习中的隐私问题写出来,也方便各位参考,也欢迎同方向的各位大神交流。

  • 近年来,随着大数据的发展,数据量可谓是增速迅猛,面对如此庞大的数据,传统的模型训练方式已经无法满足如此现状,迎来了分布式学习和联邦学习的出现。联邦学习是最近比较流行的一种模型训练方式,训练数据不离开本地,本地模型只通过上传参数或梯度到全局模型,就可以完成模型的训练,保护了数据隐私信息的安全。但是由于最近的研究发现,这种模型训练方式不能被很好的保护隐私,攻击者可以通过梯度或参数信息获取本地数据的隐私信息和模型窃取,极大的威胁了数据隐私安全,带来了安全隐患。

常见的联邦学习攻击方法有以下几种:

  • 数据攻击
  • 模型攻击
  • 后门攻击
  • 对抗攻击

 

数据攻击

  • 数据攻击是对数据本身进行的攻击,攻击者通过攻击方法来恢复受害者的数据。有两种攻场景:1. 攻击者是全局模型,来恢复本地模型的训练数据。2. 攻击者是其中一个本地模型A,受害者是另一个本地模型B。
  • 对于第一种攻击场景,由于攻击者可以获得全局模型的结构和参数,通过模型反演或梯度泄漏来恢复本地数据,已有的方法:

1. Deep Leakage from Gradients(NeurIPS 2019),通过梯度来恢复训练数据,效果可以。但是只能恢复一张图片,当batch大于1时,此方法效果无效。

联邦学习中的隐私安全问题探讨_第1张图片

2. See through Gradients: Image Batch Recovery via GradInversion(CVPR 2021 )解决了上一篇中batch大于1效果无效的情况。

联邦学习中的隐私安全问题探讨_第2张图片

  • 比较困难的是第二种攻击场景,因为现在大多数数据是No-IID数据类型,每个本地模型之间的数据是非独立同分布的,想要通过攻击者的训练数据来恢复受害者的训练数据比较困难。目前已有的方法有以下几种:
  1. Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning (CCS 2017)
    联邦学习中的隐私安全问题探讨_第3张图片

该方法将全局模型的参数作为判别器的参数,假设攻击者拥有标签b,c,受害者拥有标签a,b,在每轮联邦学习模型训练结束后,攻击者copy一份全局模型参数作为D的参数,攻击目标是标签a,将生成的样本标签设置为c,是为了尽可能多的学习到目标a的特征,然后再将生成的样本合并到训练集中去训练分类器,多次迭代,得到恢复出的受害者标签样本a。

但是此方法只有在数据集类间差比较小和类别数不多的时候有效,对于复杂的数据集效果不是很好。

2. Beyond Inferring Class Representatives: User-Level Privacy Leakage From Federated Learning(InforCom2019)

联邦学习中的隐私安全问题探讨_第4张图片

最近因为科研比较忙,剩下的后续更新......

你可能感兴趣的:(深度学习,机器学习,神经网络)