Threats to Federated Learning: A Survey (联邦学习面临的威胁:一项调查)
本篇文章是2020年发表在arXiv上的论文,介绍了联邦学习存在的隐私威胁问题,是一篇还不错的综述论文,对理解投毒攻击和推理攻击有很大帮助,以下是我个人看论文的重点记录,可能也有理解不对的地方,建议看原文!
通过摘要可以得知,由于传统机器学习模型集中训练方法面临强大的隐私挑战,联邦学习可能是一种解决方案。但是,现有的联邦学习协议已经证明存在漏洞,攻击者可以利用这些漏洞破坏数据隐私。因此,未来联邦学习算法设计对隐私保护的影响是至关重要的。本篇文章主要介绍了联邦学习的概念,然后提供了一个独特的分类方法,覆盖了威胁模型和联邦学习的两种主要攻击:投毒攻击和推理攻击。并在最后讨论了未来的研究方向。
根据数据特征和数据样本在参与者中的分布情况,联邦学习分为水平联邦学习(HFL)和垂直联邦学习(VFL)和联邦迁移学习(FTL)。进一步根据参与者的数量、联邦学习训练的参与等级和技术能力,又将HFL分为HFL对企业(H2B),HFL对消费者(H2C)。
本文调查了对联邦学习威胁的最新进展,仅关注内部对联邦学习系统发起的两种特定威胁:
内部攻击通常比外部攻击更强,因为它严格地增强了敌手的能力。本文重点集中在内部攻击上,内部攻击可采取以下三种形式之一:
根据攻击的目标,投毒攻击可分为随机攻击和针对性的攻击。
针对性的攻击比随机攻击更难,因为攻击者有一个特定的目标要实现。在训练阶段,可以对数据和模型执行投毒攻击。
1)数据投毒:本地数据采集过程中的数据投毒攻击,分为两类
2)模型投毒:局部模型训练过程中的模型投毒攻击,模型投毒攻击的目的是在将本地模型更新发送到服务器之前对其进行投毒,或者在全局模型中插入隐藏的后门。在目标模型中毒中,敌手的目标是导致FL模型对一组选择的高可信度输入进行错误分类。通过分析一个有针对性的模型中毒攻击,证明了模型中毒攻击比FL设置中的数据中毒更有效,其中一个单一的、非合规性的恶意参与者在导致模型对一组选择的高可信度输入进行错误分类。
这两种投毒攻击都试图以某种不可取的方式修改目标模型的行为。若敌手可以破坏FL服务器,那么他们很容易地对训练有素的模型进行有针对性和非针对性的投毒攻击。
在FL训练过程中交换梯度会导致严重的隐私泄露问题,模型更新可能会泄露参与者训练数据的非预期特征的额外信息给敌手参与者。
敌手还可以保持FL模型参数的snapshot,并利用连续snapshot之间的差异进行属性推理,该差异等于所有参与者的聚合更新减去敌手的更新。
主要原因是梯度是由参与者的私有数据导出的。类似地,对于卷积层,权值的梯度是来自上一层的误差和特征的卷积。模型更新的观察可以用来推断大量的私有信息,比如类代表、成员以及与训练数据子集相关的属性。更糟糕的是,攻击者可以从共享的梯度中推断出标签,并恢复原始的训练样本,而不需要任何关于训练的先验知识。
Hitaj等人设计了一种主动推理攻击,称为生成对抗网络(GAN)攻击深层FL模型。在这里,恶意参与者可以有意地危害任何其他参与者。GAN攻击利用了FL学习过程的实时特性,允许敌对方训练GAN,生成目标训练数据的原型样本,这些样本应是私有的。生成的样本似乎来自与训练数据相同的分布。因此,GAN攻击的目标不是重构实际的训练输入,而是类代表。GAN攻击假设给定类的整个训练语料库来自单个参与者,只有在所有类成员都相似的特殊情况下,GAN 构造的代表才与训练数据相似,而且GAN攻击不太适合H2C场景,因为它需要大量的计算资源。
成员推理攻击的目的是确定它是否被用来模型。例如,攻击者可以推断特定的患者概要文件是否被用于训练与疾病相关的分类器。在FL中,敌手的目标是推断一个特定样本是否属于单个方(如果目标更新是单个方)或任何一方(如果目标更新是聚合)的私有训练数据。
FL系统中的攻击者可以进行主动和被动的成员推断攻击。
敌手可以发动被动和主动的属性推断攻击,以推断其他参与者的训练数据的属性,这些属性独立于FL模型的类特征。属性推理攻击假设敌手有辅助训练数据,这些数据正确地标记了他想要推断的属性。被动敌手只能观察/窃听更新,并通过训练二进制属性分类器来执行推理。敌对的参与者甚至可以在训练过程中推断出某一属性何时在数据中出现或消失。
Zhu2019等人的最近工作“梯度深层渗漏”(DLG)提出了一种优化算法,该算法可以在短短几代迭代中获得训练输入和标签。这种攻击比以前的方法强得多。它可以恢复像素级精确的原始图像和标记级匹配的原始文本。推理攻击通常假设敌手拥有复杂的技术能力和大量的计算资源。此外,必须选择敌手进行多次FL训练。因此,它不适合H2C场景,但在H2B场景下更有可能。此类攻击还突出了在FL训练期间保护共享梯度的需要,可能通过同态加密等机制来实现。
为了提高FL系统的鲁棒性,还存在一些潜在的漏洞需要解决。下面作者概述了认为有前途的研究方向。
具有高纬参数向量的大型模型特别容易受到隐私和安全攻击。大多数FL算法需要用全局模型覆盖局部模型参数。这使得它们容易受到中毒和后门攻击,因为敌手可以在高维模型中进行微小但具有破坏性的更改而不被检测到。为解决FL的这些基本缺点,值得探讨的是共享模型更新是否必要。相反,以黑盒方式共享较不敏感的信息(如SIGNSGD或仅共享模型预测可能会导致FL中更强大的隐私保护。
在VFL中,可能只有一方拥有给定学习任务的标签。目前还不清楚是否所有参与者都具有同等的攻击FL模型的能力,以及对HFL的威胁是否能够对VFL起作用。目前的大多数威胁仍然集中在HFL上。因此,对VFL的威胁是值得探讨的。
共享模型更新通常仅限于同构的FL架构,相同的模型与所有参与者共享。研究如何将FL扩展到异构架构的协作训练模型将是有趣的,以及现有的攻击和隐私技术是否可以适应这一范式。
目前正在研究不需要单个服务器的去中心化联邦学习。这是一个潜在的学习框架,用于不相信任何第三方的企业之间的合作。在这个场景中,每个参与方都可以轮流的方式被选为服务器。此外,它可能会存在新的攻击问题,例如最后被选为服务器的一方选择插入后门,则可能会污染整个模型。
具有安全聚合的联邦学习特别容易受到投毒攻击,因无法检测单个更新。目前尚不清楚对抗训练是否适用于联邦学习,因为对抗训练主要是针对IID数据开发,它在非IID设置中如何执行仍然是一个具有挑战性的问题。
当部署防御机制检测是否有敌手攻击联邦学习系统时,联邦学习服务器将需要额外的计算开销。研究如何优化部署防御机制具有重要意义。