联邦学习和Analyzing User-Level Privacy Attack Against Federated Learning阅读报告

联邦学习所具有的特点

  • 支持非独立同分布的数据
    不同客户端中的样本产生可能有差别。
    特征分布倾斜:不同的人写相同的字但字迹不一样。
    标签分布倾斜:不同地区的人用的表情不一样。
    标签相同,特征不同:两个不同的文字,但表示的意义一样。
    特征相同,标签不同:有的地方点头表示yes,有的地方点头表示no。
    数据不平衡。

  • 通信高效

  • 快速收敛

  • 安全性和隐私性

  • 用户构成复杂

联邦学习的安全,隐私保护方向

1.优势
在保护数据隐私的前提下,实现由多个参与者的本地数据训练出统一的机器学习模型。
2.存在的安全问题
存在的安全问题可以分为攻击,安全和鲁棒性三个方面。

  • 云服务器在数据训练过程没有设置参与者的权限,这就导致恶意参与者会上传不正确的模型,并达到破坏全局模型的能力
  • 将本地模型更新和全剧模型参数结合可以得到训练数据中的隐含知识从而造成信息泄露
  • 不可信的云服务器和恶意参与者的合谋攻击下会造成用户数据的泄露

攻击者主要破坏方面

  • 机密性:机密性主要体现在两个方面。①窃取训练数据中的敏感信息②暴露目标模型信息及预测结果
  • 完整性:攻击者会诱导模型行为,使得模型输出为自己指定的分类标签
  • 可用性:阻止用户获得模型的正确输出,干预用户获取模型的某些特征,使得模型不具备可靠性

3.攻击类型
联邦学习和Analyzing User-Level Privacy Attack Against Federated Learning阅读报告_第1张图片
投毒攻击:

  • 标签反转攻击

标签翻转攻击是指恶意用户通过翻转样本标签,将预先准备好的攻击点嵌入到训练数据中,便可使训练后的模型偏离既定的预测边界。
主动攻击者首先在第 t 轮通信时下载全局模型参数来更新其本地模型,攻击者接着用标签翻转训练数据对已更新的本地模型进行训练并将训练后生成的本地模型参数上传至服务器。当服务器基于最新上传的伪本地模型参数完成联邦平均之后,全局模型将在随后的通信过程中受到被攻击者的破坏

  • 后门攻击
    后门攻击需要攻击者在其精心设计的训练数据上使用一些特定的隐藏模式来训练目标深度神经网络。

用户端GAN攻击
联邦学习框架对于系统内部参与者发起的主动攻击是极为脆弱的,提出了一种由系统内恶意用户发起的基于 GAN的重建攻击。
在训练阶段,攻击者可以假扮成良性用户,训练一个 GAN 用于模拟其他用户训练数据产生的原型样本。通过不断注入伪造的训练样本,攻击能够逐步影响整个学习过程并且诱使受害者释放更多与攻击者目标类有关的敏感信息。

Analyzing User-Level Privacy Attack Against Federated Learning 阅读

预备知识

1.GAN:
概率:已知事物的一些性质时,预测可能出现的结果。
似然:已知事物的结果,对事物性质的参数进行估计。
公式:
m i n G m a x D = E x ∽ p d a t a ( x ) [ log ⁡ D ( x ) ] + E z ∽ p z ( z ) [ log ⁡ ( 1 − D ( G ( z ) ) ) ] \underset{G}{min}\underset{D}{max}=\mathbb{E}_{x\backsim p_{data}(x)}[\log D(x)]+\mathbb{E}_{z\backsim p_{z}(z)}[\log (1-D(G(z)))] GminDmax=Expdata(x)[logD(x)]+Ezpz(z)[log(1D(G(z)))]
p d a t a ( x ) p_{data}(x) pdata(x):真实数据的分布
p z ( z ) p_{z}(z) pz(z):生成器生成的数据的分布

目标:

  • 对于鉴别器D来说:如果x是来自 p d a t a p_{data} pdata,那么 log ⁡ D ( x ) \log D(x) logD(x)的值需要尽可能的大,如果x来自 p z p_{z} pz,那么 log ⁡ D ( x ) \log D(x) logD(x)的值需要尽可能的小,从而 log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(z))) log(1D(G(z)))就需要尽可能的大.
  • 对于生成器G来说:如果x来自 p z p_{z} pz,那么 log ⁡ D ( x ) \log D(x) logD(x)的值需要尽可能的大,从而 log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(z))) log(1D(G(z)))就要尽可能的小

该公式的最优解:

本文的贡献:

  1. 据我们所知,我们是第一个通过研究来自恶意服务器的攻击来分析联邦学习的隐私问题的人。此外,在推断类明智的代表之外,我们进一步以一种无形的方式恢复用户级隐私。
  2. 我们提出了一种基于多任务GAN的通用攻击框架mGAN-AI,该框架对用户身份进行了新颖的识别,实现了用户级隐私泄露。
  3. 我们进一步对mGAN-AI提出了一种针对潜在匿名策略的预先链接性攻击,该攻击通过关联来自不同客户端的数据代表来重新识别匿名模型更新
  4. 通过详尽的实验评价,验证了该方法的有效性和优越性。在MNIST和A T&T数据集中,mGAN-AI成功恢复了特定用户的样本。此外,在匿名环境下,所提出的可链接性攻击的成功率超过99%

m-GAN-AI模型

联邦学习和Analyzing User-Level Privacy Attack Against Federated Learning阅读报告_第2张图片
Clients:客户端
Victim:受害者
Malicious Server:恶意服务器
M t M_t Mt:第t次迭代的模型
u t k u^{k}_t utk:第t次迭代,来自于第k个客户端的相应更新
u t v u^{v}_t utv:第t次迭代,来自于第v个受害者的相应更新
X a u x X_{aux} Xaux:辅助训练的真实数据集
X k X_{k} Xk:来自客户端的数据集
X v X_{v} Xv:来自受害者的数据集

你可能感兴趣的:(周报,机器学习,网络安全,人工智能)