题目: A survey on federated learning
期刊: Knowledge-Based Systems 2021
论文地址:A survey on federated learning
在前面的学习中,首先通过对联邦学习原始论文的解读来大概了解了什么是联邦学习。然后在IEEE ICIP 2019 | 更快更好的联邦学习:一种特征融合方法一文中介绍了一种以更少通信成本实现了更高精度的方法:特征融合机制。最后对联邦学习的基本算法FedAVG进行了实现。
不过前面的学习是不成体系的,为了更好地了解联邦学习,特对2021年发表在KBS上的一篇联邦学习综述进行了解读。
本文需要掌握的有以下几点:
由于是综述,本文对于上述4点也只是进行了大致介绍,不过好在可以为初学者提供一个好的指导作用。
本文从数据划分、隐私机制、机器学习模型、通信体系结构和系统异构五个方面系统地介绍了联邦学习的现有工作,为该领域的研究提供了一个全面的综述。然后,梳理了联邦学习目前面临的挑战和未来的研究方向。最后,总结了现有联邦学习的特点,并分析了当前联邦学习的实际应用。
随着大数据的发展,我们不再关注数据量的问题,而是开始关心数据的隐私和安全问题,许多国家和地区都开始颁布法律来保护用户数据隐私。
在AI领域,数据是基础。目前流行的数据处理方法为:集中采集、统一处理、清理和建模。但是在大多数情况下,数据会在收集和处理过程中泄露。
随着人工智能芯片组的出现,客户端设备的计算资源变得更加强大,人工智能模型训练也逐渐从中央服务器向终端设备转移。联邦学习提供了一种隐私保护机制,可以有效地利用终端设备的计算资源对模型进行训练,防止隐私信息在数据传输过程中被泄露。
N N N个用户 { U 1 , U 2 , . . . , U n } \left \{ U_1, U_2,...,U_n \right \} {U1,U2,...,Un}拥有各自的数据集 { D 1 , D 2 , . . . , D n } \left \{ D_1,D_2,...,D_n \right \} {D1,D2,...,Dn},每个人都不能通过直接访问其他人的数据来扩展自己的数据。
本节从数据分区、隐私机制、适用的机器学习模型、通信体系结构和解决异质问题的方法五个方面总结了联邦学习的分类。表1给出了这些类别的优点和应用:
根据数据的样本空间和特征空间的不同分布模式,如图2所示,联邦学习可以分为三大类:横向联邦学习、纵向联邦学习和联邦迁移学习。
横向联邦学习适用于两个数据集的用户特征重叠较多而用户重叠较少的情况。
比如在两个不同的地区,两个当地电力局提供的服务类似,因此对用户产生了类似的数据,比如月用电量,因此两个电力局的数据集特征重叠较多。但是,这两个地区的用户分别受各自电力局的管辖,两个电力局的数据集用户重叠较少。
如下所示:
中间部分即为两个数据集的特征一致部分。横向联邦学习是将数据集水平分割(按用户维度),然后取出用户特征相同但用户不完全相同的部分进行训练,因此,横向联邦学习可以增加样本数量。简而言之,横向联邦学习中,每个用户都选取具有相同特征的多行数据来进行训练,即用户1选取具有特征1到n的样本进行训练,用户2同样如此。
纵向联邦学习适用于两个数据集用户特征重叠较少,但用户重叠较多的情况。
例如同一个地区有两个机构:银行和电力局。银行产生用户的收入和支出行为等数据,电力局产生用户用电数据,两个数据集的特征几乎没有重叠,但两个数据集中的用户却几乎是同一批用户(有较大重叠)。如下所示:
中间部分即为两个数据集中用户一致的部分。纵向联邦学习是将数据集垂直划分(按用户特征维度),然后取出用户相同但用户特征不完全相同的部分数据进行训练。换句话说,不同列中的数据具有相同的用户(按用户对齐)。因此,纵向联邦学习可以增加训练数据的特征维数。简而言之,数据集1中选取用户1到n的特征1到n进行训练,数据集2中选取用户1到n的特征n到2n进行训练。
对于数据的纵向划分,有很多机器学习算法,如分类,统计分析,梯度下降,安全线性回归,数据挖掘。
联邦迁移学习适用于两个数据集的用户特征和用户都重叠较少的情况。 在这种情况下,我们不分割数据,但可以使用迁移学习克服数据或标签的缺乏。
比如地区1的银行和地区2的电力局,用户重叠少(2个地区),用户特征重叠也较少(银行数据和电力数据)。如下所示:
迁移学习最适合的情况是当你试图优化任务的性能,但没有足够的相关数据用于训练。例如,医院放射科很难收集大量的X线扫描片来建立良好的放射诊断系统。此时,迁移学习将帮助我们学习其他相关但不同的任务,如图像识别任务,学习一个放射诊断系统。通过联邦迁移学习,既可以保证数据的私密性,又可以将辅助任务的模型迁移到指导者学习中,解决了数据量小的问题。
联邦学习最重要的特点是各个客户端可以将自己的数据保存在本地,只是需要共享模型信息来训练目标模型。但是,模型信息也会泄露一些私有信息。保护联邦隐私的常用方法是模型聚合、同态加密和差分隐私。
模型聚合通过总结各方的模型参数来训练全局模型,从而避免在训练过程中传输原始数据。这一点在联邦学习原始论文的解读中有所体现。
McMahan等人提出了一种基于迭代模型平均的深度网络联邦学习框架,该框架在每一轮更新中通过总结局部模型来训练全局模型。PATE方法基于知识的聚合,从由分离数据训练的Teacher模型转移到可以公开其属性的Student模型。PATE以黑盒的方式将多个训练过的模型与离散数据集结合在一起,这为训练数据的私密性提供了准确的保证。Yurochkin等人开发了神经网络联邦学习的贝叶斯非参数框架,该框架通过匹配局部模型中的神经元建立全局模型。
此外,联邦学习和多任务的结合允许多个用户局部训练不同任务的模型,这也是典型的模型聚合方法。在一些论文中,联邦学习和区块链相结合,基于区块链交换和更新每个设备的模型数据,最后,在区块链协议的保证下,对模型参数进行安全聚合。
一般的加密方案关注的是数据存储的安全性,没有密钥的用户不可能从加密结果中获得原始数据的任何信息,也不能对加密后的数据进行任何计算操作。与一般加密不同,同态加密最重要的特点是用户可以对加密后的数据进行计算和处理,但在处理过程中不会泄露原始数据,计算结束后,用户用密钥对处理后的数据进行解密。
在使用联邦学习时,用户与服务器之间的梯度交换可能会泄露用户的隐私信息。同态加密可以很好地解决这一问题,它可以在不影响模型训练结果的前提下对加密模型进行处理。
在差分隐私定义下,数据库的计算结果对特定记录的变化不敏感,数据集中是否存在一条记录对计算结果的影响很小。因此,向数据集添加一条记录所导致的隐私泄露风险被控制在一个非常小的可接受的范围内,攻击者无法通过观察计算结果来获得准确的个人信息。
在传统的机器学习和深度学习的模型训练过程中,流行的做法是在输出中加入噪声,然后在梯度迭代的过程中应用差分隐私,从而达到保护用户隐私的目的。在实际应用中,通常采用拉普拉斯机制和指数机制来实现差异化隐私保护。然而,添加更多的噪声将不可避免地影响有效性,因此如何在隐私和有效性之间取得平衡是目前较为热门的研究方向。差分隐私分为全局差分隐私和局部差分隐私,两种不同的隐私都能保证单个用户的不同需求,但应用场景略有不同。
联邦学习逐渐渗透到当前流行的机器学习模型中,其目的是保证模型的私密性和效率。我们主要考虑联邦学习支持的三种模型:线性模型、决策树和神经网络。
线性模型主要分为三类:线性回归、岭回归和Lasso回归。Du等人提出了联邦环境下线性模型的训练,解决了实体解析的安全性问题,最终达到了与非私有解决方案相同的精度。Nikolaenko等人设计了一个具有同态加密和姚氏协议的岭回归系统,取得了最好的性能。与其他模型相比,线性模型简单,易于实现,是实现联邦学习的有效模型。
联邦学习可用于训练单个或多个决策树,如梯度增强决策树和随机森林。梯度增强决策树(Gradient Boosting Decision Tree, GBDT)算法是近年来被广泛提及的一种算法,主要原因是它在许多分类和回归任务中都具有良好的性能。Zhao等人首次在回归和二元分类任务中实现了GBDT隐私保护系统。该系统安全地将不同数据所有者训练的回归树聚合成一个集合,以防止用户数据隐私的泄露。Cheng等人提出了一个名为SecureBoost的框架,该框架对横向和纵向分区数据进行梯度提升决策树模型的训练,使用户能够建立联邦学习系统。
无人机群通常通过深度学习对模型进行训练,但由于无人机群与地面基站之间缺乏持续的连接,集中式训练方式无法发挥无人机的实时性。Zeng等人首先在无人机群上实现分布式联邦学习算法。该算法的主要步骤是由领先无人机将其余无人机训练的局部飞行模型汇总生成全局飞行模型,并通过群内网络转发给其余无人机。Bonawitz等人基于TensorFlow构建了一个可扩展的移动设备联邦学习系统,可以训练大量的分布式数据模型。Yang等人建立了基于数据分区的联邦深度学习框架,实现了企业数据中的优先级应用。Liu等人将交通流预测的GRU (Gated Recurrent Unit)神经网络与联邦学习相结合,提出了一种融合全局最优模型的聚类FedGRU算法,更准确地捕捉交通流数据的时空相关性。
在分布式训练设计中,所有远程设备都可以与中心服务器通信,参与全局模型的更新。在联邦环境下,本地更新的灵活性和客户参与影响了整个模型的训练有效性。
在联邦学习的应用场景中,设备的差异会使整个训练过程的效率低下。为了解决系统异质问题,有四种方式:异步通信、设备采样、容错机制和模型异质。
在传统的数据中心建设中,基于并行迭代优化算法有两种常见的方案:同步通信和异步通信。但是,面对设备的多样性,同步方案容易受到干扰,所以在联邦学习多设备环境中,异步通信方案可以更好地解决设备分散的问题。
在联邦学习中,并不是每个设备都需要参与到每个迭代训练过程中。
在不稳定的网络环境中,容错机制可以防止系统崩溃。特别是在分布式环境中,当多台设备同时工作时,一旦其中一台设备出现故障,将会影响到其他设备。
当从多方设备中收集分布不均匀的数据来训练联邦模型时,会严重影响模型的最终效率。合理处理来自不同设备的数据对联邦学习有着至关重要的影响。为了解决统计数据异质的问题,联邦学习网络主要分为三种建模方法:单个设备有自己的模型;培训适用于所有设备的全局模型;为任务训练相关的学习模式。
谷歌键盘
谷歌于2016年开始了一个项目,在Android移动用户中建立联邦学习,以提高键盘输入预测的质量,同时保证用户的安全性和隐私性。
智能医疗诊断系统
由于对患者隐私的保护,分散在各个医院的医疗数据收集变得非常困难,现有的联邦迁移学习可以解决这些问题。Lee等人利用互联医疗系统整理健康结果数据和纵向真实数据,设计并实现基于APOLLO网络的综合多联邦学习网络,将真实世界数据转化为医学诊断证据,辅助医生对患者的前瞻性诊断。
不详细介绍。
主要有以下四个方面的挑战。
隐私保护
虽然目前有一些提高数据私密性的方法,但这些方法都增加了计算复杂度。为了进一步有效地保护私有数据的安全,我们需要寻找新的方法来防止私有数据在模型传输过程中被泄露。
通信成本
联邦网络可能由许多设备组成,例如数百万个远程移动设备,这意味着联邦学习模型的训练可能涉及大量的通信。此外,网络中的通信速度无法得到保证,因此联邦学习的通信代价是非常值得考虑的。
系统异质性
由于硬件和网络连接的不同,联邦网络中每个设备的计算和通信能力可能不同,网络中同时处于活动状态的设备通常只占很小的一部分。例如,数百万个设备的网络有时只能同时拥有数百个活动设备。同时,每个设备也可能是不可靠的,这些系统的异质性极大地加剧了容错的挑战。因此联邦学习方法必须能够容忍异质硬件,并且对网络中的离线设备具有鲁棒性。
不可靠的模型上传
在联邦学习中,移动节点可能会有意或无意地误导服务器聚合全局模型。对于故意的行为,攻击者可以发送恶意的模型参数来影响全局模型的聚合,从而造成模型训练的错误。另一方面,不稳定的移动网络环境可能会导致移动设备出现一些意想不到的行为,比如上传一些低质量的模型,这些都会对联邦学习产生不利影响。因此,抵抗这种不可靠的本地模型上传至关重要。
为了解决上述挑战,未来有一些可能的工作方向值得研究。
隐私的限制
由于网络中各种设备的异质性,它们的隐私限制都有自己的不同的特点,因此有必要定义更详细级别的批处理设备的隐私限制。基于特定设备隐私限制的隐私保护方法的开发是未来工作的一个有趣且持续的方向。
通信成本和计算成本间的权衡
提高通信效率主要可以考虑两个方面:迭代发送小消息,或者减少沟通的总轮数。例如我们可以使用模型压缩技术来减少联邦学习中通信的数据大小。在减少沟通次数方面,可以根据需要沟通的模型的重要性进行筛选。我们还可以将这两种方法结合起来,这样可以大大降低移动设备和服务器之间的通信成本,但这样也增加了一些计算压力。寻找通信成本与计算压力之间的平衡是未来工作的主要方向。
多中心联邦学习
最近的一些研究表明,如果能够提前获得系统中设备的异质性,则可以根据异质性对所有移动设备进行分组,并为每组分配一个本地中心服务器。我们可以首先聚合一组类似的异质设备模型,然后将它们发送到服务器以聚合成一个全局模型。
可靠客户端的选择
在联邦学习中,移动设备可能会上传不可靠的数据,从而导致服务器无法聚合全局模型。因此,如何在联邦学习任务中找到值得信赖和可靠的客户端是至关重要的。一些论文中引入了声誉的概念,作为衡量客户可靠性的指标。
联邦学习作为一种可以实际应用的模型,在强调数据隐私和数据安全的同时,也被越来越多的研究者和企业所接受。一方面,当数据不足导致用户无法训练出满意的模型时,联邦学习可以聚合多方用户模型,在不暴露原始数据的情况下对集成的模型进行更新。另一方面,当用户没有足够的数据标签学习时,联邦学习不仅可以为用户提供安全的模型共享机制,还可以将模型迁移到特定的任务中,解决数据标签不足的问题。本文介绍了联邦学习的基本定义、相关技术和具体分类,然后讨论了联邦学习的实际应用场景,梳理了联邦学习目前面临的挑战和未来的研究方向。相信在不久的将来,联邦学习可以为更多的应用提供安全、共享的安全服务,促进人工智能的稳定发展。