2021-09-16

《Federated Learning Challenges, methods, and future directions》翻译


教育学习涉及在远程设备或孤立的数据中心(如移动电话或医院)上培训统计模型,同时保持数据本地化。在异构和潜在的大规模网络中的训练带来了新的挑战,需要从根本上背离大规模机器学习、分布式优化和保护隐私的数据分析的标准方法。在这篇文章中,我们讨论了联合学习的独特特征和挑战,提供了当前方法的广泛概述,并概述了与广泛的研究社区相关的未来工作的几个方向

INTRODUCTION介绍
手机、可穿戴设备和自动驾驶汽车只是每天产生大量数据的现代分布式网络中的一小部分。由于这些设备的计算能力不断增强,再加上对传输私人信息的担忧,将数据存储在本地并将网络计算推到边缘变得越来越有吸引力。边缘计算并不是一个新概念。事实上,跨分布式、低功率设备计算简单查询是一个长达数十年的研究领域,在传感器网络的查询处理、边缘计算和雾计算[6]、[30]的范围内进行了探索。最近的工作也考虑集中训练机器学习模型,但在本地服务和存储它们;例如,这是移动用户建模和个性化[23]中的一种常见方法。然而,随着分布式网络中设备的存储和计算能力的增长,可以利用每个设备上增强的本地资源。此外,传输原始数据的隐私问题要求用户生成的数据保留在本地设备上。这使得人们对联邦学习[31]越来越感兴趣,[31]探索在远程设备上直接培训统计模型。在本文中,设备一词用于描述通信网络中的实体,如节点、客户端、传感器或组织。
正如我们在本文中讨论的,在这种环境下的学习与传统的分布式环境有很大的不同,这需要在隐私、大规模机器学习和分布式优化等领域取得根本性的进步,并在机器学习和系统等不同领域的交叉中提出新的问题。大型公司[5]、[41]已经在实践中部署了联邦学习方法,并在支持隐私敏感应用(训练数据分布在[8]、[19]边缘)方面发挥了关键作用。在下一节中,我们将讨论联合学习的几个典型应用。

【联合学习有可能在不降低用户体验或泄露私人信息的情况下,在智能手机上实现预测功能。】

手机
通过在大量手机中联合学习用户行为,统计模型可以为下一个单词预测[17]等应用程序提供支持。然而,用户可能不愿意分享他们的数据,以保护他们的个人隐私或节省有限的带宽/电池电量的手机。联合学习有可能在不降低用户体验或泄露私人信息的情况下,在智能手机上实现预测功能。图1描述了一个这样的应用程序,我们的目标是在一个大规模移动电话网络中学习基于用户历史文本数据[17]的下一个词预测器。
组织
在联合学习的背景下,组织或机构也可以被视为“设备”。例如,医院是包含大量用于预测医疗保健的患者数据的组织;然而,医院在严格的隐私保护措施下运营,可能会面临法律、行政或伦理方面的限制,要求数据保持本地。对于这些应用[19]来说,联合学习是一个很有前途的解决方案,因为它可以减少隐私泄露,并自然地消除这些限制,以实现不同设备/组织之间的私人学习。
物联网
现代物联网网络,如可穿戴设备、自动驾驶汽车或智能家居,可能包含许多传感器,允许它们实时收集、反应和适应传入的数据。例如,一组自动驾驶汽车可能需要最新的交通、建筑或行人行为模式才能安全运行;然而,由于数据的私密性和每个设备的有限连接性,在这些场景中构建聚合模型可能很困难。联合学习方法可以帮助训练模型,有效地适应这些系统的变化,同时保持用户的隐私。

PROBLEM FORMULATION问题公式化
标准的联邦学习问题涉及从存储在数千万到数百万远程设备上的数据中学习单个全局统计模型。我们的目标是在设备生成的数据在本地存储和处理的约束下学习这个模型,只有中间更新定期与中央服务器通信。目标通常是最小化以下目标函数:
在这里插入图片描述

其中m为设备总数, pk>=0且Σkpk=1, Fk为第k个设备的局部目标函数。局部目标函数通常定义为局部数据的经验风险,即()/ (;,),F w n F w x y1jnk kj jj1k kk kkR==
其中nk是局部可用的样本数。用户定义的术语pk指定每个设备的相对影响,两个自然设置为(/)p n1k=或(/),p n nkk =
其中n nkkR=
为样本总数。我们将在整篇文章中引用(1),但是,正如在下一节中讨论的,我们注意到其他目标或建模方法可能是适当的,这取决于感兴趣的应用。
2021-09-16_第1张图片

图1所示。联合学习在移动电话下一个词预测任务中的应用实例。为了保护文本数据的隐私并减少对网络的压力,我们寻求以分布式方式训练预测器,而不是将原始数据发送到中央服务器。在这种设置中,远程设备定期与中央服务器通信,以学习全局模型。在每一轮通信中,选定的手机子集对它们的非同分布用户数据进行本地培训,并将这些本地更新发送到服务器。在合并更新之后,服务器将新的全局模型发送回另一个设备子集。这种迭代训练过程在整个网络中持续进行,直到达到收敛或满足某种停止准则。

CORE CHALLENGE核心的挑战
接下来,我们将描述与解决(1)中提出的分布式优化问题相关的四个核心挑战。这些挑战使联邦设置有别于其他经典问题,如数据中心设置中的分布式学习或传统的私有数据分析。

【设备经常在网络上以高度非同质分布的方式生成和收集数据。】

挑战1:昂贵的沟通Expensive communication
在联邦网络[5]中,通信是一个关键的瓶颈,再加上发送原始数据的隐私问题,使得在每个设备上生成的数据必须保持在本地。事实上,联合网络可能包含大量设备,例如数百万部智能手机,而且由于带宽、能量和功率[46]等资源有限,网络中的通信可能比本地计算慢很多个数量级。为了使模型与联邦网络中的设备生成的数据相匹配,开发一种高效的通信方法是很重要的,这种方法在训练过程中迭代地发送小消息或模型更新,而不是通过网络发送整个数据集。为了进一步减少这种情况下的通信,需要考虑两个关键方面:1)减少通信轮的总数,2)减少每轮传输的信息的大小

挑战2:系统的异构性Systems heterogeneity
由于硬件(CPU和内存)、网络连通性(3G、4G、5G和Wi-Fi)和电源(电池水平)[46]的不同,联邦网络中每个设备的存储、计算和通信能力可能有所不同。此外,网络大小和对每个设备的系统相关限制通常导致一次只有一小部分设备处于活动状态,例如,在一个拥有数百万设备[5]的网络中,有数百个活动设备。由于连接或能量限制[5],主动设备在给定迭代时退出也并不罕见。这些系统级特征极大地加剧了诸如延迟缓解和容错等挑战。因此,开发的联合学习方法必须1)预期低参与量,2)容忍异构硬件,3)足够健壮,能够在通信网络中丢弃设备。

挑战3:统计学异质性Statistical heterogeneity
设备经常在网络上以高度非同构分布的方式生成和收集数据,例如,在下一个词预测任务的语境中,手机用户使用不同的语言。此外,设备之间的数据点的数量可能有很大的差异,可能存在一个底层统计结构来捕获设备之间的关系及其相关分布[42]。这种数据生成范式违反了在分布式优化中经常使用的独立和同分布(i.i.d)假设,并可能在问题建模、理论分析和解决方案的经验评估方面增加复杂性。的确,虽然(1)的规范联合学习问题旨在学习单个全局模型,但也存在其他选择,如通过多任务学习框架同时学习不同的局部模型(cf.[42])。在这方面,领先的联合学习方法和金属学习[24]也有着密切的联系。多任务和元学习视角都支持个性化或特定于设备的建模,这通常是处理数据统计异质性以实现更好的个性化的更自然的方法。

挑战4:隐私问题Privacy concerns
最后,隐私通常是联合学习应用程序的主要问题。通过共享模型更新,例如梯度信息,而不是原始数据,联邦学习在保护每个设备上生成的数据方面迈出了一步。然而,在整个培训过程中通信模型更新仍然可以向第三方或中央服务器[32]透露敏感信息。尽管最近的一些方法旨在使用安全多方计算(SMC)或差分隐私等工具来增强联邦学习的隐私性,但这些方法往往以降低模型性能或系统效率为代价提供隐私性。理解和平衡这些权衡,无论是理论和经验,是一个相当大的挑战,以实现私人联合学习系统。

Survey of related and current work相关和当前工作的调查
乍一看,联邦学习面临的挑战类似于隐私、大规模机器学习和分布式优化等领域的经典问题。例如,在优化和信号处理社区[28],[40],[43]中,已经提出了许多方法来处理昂贵的通信。然而,这些方法通常无法完全处理联邦网络的规模,更不用说系统和统计异质性的挑战了(请参阅本节的讨论)。类似地,尽管隐私是一个重要的方面,设备经常在网络上以高度非同一性分布的方式生成和收集数据。对于许多应用程序,保护隐私的方法联合学习可能是一个挑战,严格维护的统计数据和变化可能更难以实施,由于系统限制每个设备和庞大的网络。在下一节中,我们将更详细地探讨“介绍”部分中提出的挑战,包括对经典成果的讨论,以及最近专门关注联合学习的工作。

【联邦学习中最常用的方法是联邦平均,这是一种基于平均局部随机梯度下降更新的原始问题的方法。】

Communication efficiency通信效率
在开发联合网络的方法时,通信是需要考虑的关键瓶颈。虽然这超出了本文的范围,提供一个自包含的交流高效学习方法的回顾,我们指出了几个大致的方向,我们将其分为1)局部更新方法,2)压缩方案,和3)分散训练。
本地更新Local updating
小批量优化方法,涉及扩展经典随机方法,以一次处理多个数据点,已成为数据中心环境中分布式机器学习的流行范例。然而,在实践中,它们在适应[53]的通信计算权衡方面表现出有限的灵活性,[53]将最大限度地利用分布式数据处理。作为回应,最近提出了几种方法来提高分布式设置中的通信效率,方法是允许在每轮通信时在每台机器上并行地应用一个变量(而不是仅仅在本地计算它们,然后集中应用它们)[44]。这使得计算量相对于通信量更加灵活。对于凸目标,分布式局部更新原元方法已经成为解决这类问题[43]的流行方法。这些方法利用二元结构有效地将全局目标分解为子问题,这些子问题可以在每一轮通信中并行解决。本文还提出了几种分布式局部更新原元方法,这些方法的优点是适用于非凸目标[53]。这些方法在实践中极大地提高了性能,并已被证明比传统的迷你批处理方法或分布式方法(如真实数据中心环境中乘数的交替方向方法)实现了数量级的加速。在图2中,我们直观地展示了局部更新方法。在联邦设置中,允许灵活的本地更新和低客户端参与的优化方法已经成为事实上的解决方案[31]。联邦学习中最常用的方法是联邦平均(FedAvg)[31],这是一种基于平均局部随机梯度下降(SGD)更新的原始问题方法。FedAvg已经被证明在经验上工作得很好,特别是对于非凸问题,但它没有收敛保证,而且在实际情况下,当数据是异构[25]时,它可能会发散。我们在“非i.i.d的收敛保证”中更详细地讨论了处理这种统计异质性的方法。数据”部分。
压缩方案Compression schemes
虽然局部更新方法可以减少总通信轮数,但模型压缩方案,如稀疏化和量化,可以显著减少每轮通信的消息大小。在以前的数据中心环境中的分布式培训文献中,对这些方法进行了广泛的实证和理论研究。(读者可参考[47]获得更完整的评论。)在联合环境中,设备的低参与度、非同构分布的本地数据和本地更新方案对这些模型压缩方法提出了新的挑战。一些工作在联邦设置中提供了实用的策略,如强制更新模型是稀疏的和低秩的[22],执行量化的结构化随机旋转[22],使用有损压缩和dropout来减少服务器到设备的通信[9]。从理论角度来看,尽管之前的工作已经探索了在非同分布数据(如[45])存在时低精度训练的收敛保证,但所作的假设没有考虑联邦设置的共同特征,例如低设备参与或本地更新优化方法。
分散培训Decentralized training
在联合学习中,星型网络[其中一个中央服务器连接到一个设备网络,如图3(a)]是主要的通信拓扑;因此,在本文中,我们将重点关注明星网络的设置。我们简要地讨论分散拓扑[其中设备只与它们的邻居通信,例如,图3(b)]作为一种潜在的替代方案。在数据中心环境中,在低带宽或高延迟网络上操作时,分散式培训已被证明比集中式培训更快。一些研究提出了基于最后期限的方法,即所有工作人员在固定的全局周期内使用可变数量的样本计算局部梯度,这有助于减轻掉线者[16],[39]的影响。(我们建议读者参阅[18]以获得更全面的评论。)同样,在联合学习中,去中心化算法理论上可以降低中央服务器上的高通信成本。最近的一些工作研究了使用本地更新方案[18]对异构数据进行分散培训。然而,它们要么局限于线性模型[18],要么假设全设备参与。

【我们指出了几个大致的方向,并将其分为1)局部更新方法,2)压缩方案和3)分散训练。】
2021-09-16_第2张图片

图2。(a)分布式(小批量)SGD。每个设备k在本地计算从小批数据点到近似()F wkd的梯度,并将聚合的小批更新应用到服务器上。(b)本地更新计划。每个设备在计算完本地更新后立即应用本地更新,例如梯度,服务器在(潜在的)可变数量的本地更新后执行全局聚合。局部更新方案可以通过在本地执行额外的工作来减少通信。

2021-09-16_第3张图片

图3。集中式拓扑与分散式拓扑。在典型的联邦学习设置中,作为本文的重点,我们假设(a)一个星形网络,其中服务器连接到所有远程设备。(b)当与服务器的通信成为瓶颈时,分散式拓扑是一种潜在的选择。

Systems heterogeneity系统的异构性
在联邦设置中,由于设备在硬件、网络连通性和电池功率方面可能有所不同,因此跨网络的系统特性存在显著差异。如图4所示,与典型的数据中心环境相比,这些系统特征使得诸如掉队等问题更加普遍。我们粗略地将用于处理系统异构性的几个关键方向分为1)异步通信、2)主动设备采样和3)容错。正如在“分散训练”一节中提到的,在下一节中给出的讨论中,我们假设一个星型拓扑。

【异步方案是一种很有吸引力的方法,用于缓解异构环境中的掉线现象,特别是在共享内存系统中。】

2021-09-16_第4张图片

图4。联合学习中的系统异质性。设备的网络连接方式、功率、硬件等各不相同。此外,在训练过程中,有些设备可能会随时掉下来。因此,联合训练方法必须容忍异构系统环境和设备的低参与度,也就是说,它们必须允许在每轮只有一小部分设备处于活动状态。

异步通信Asynchronous communication
在传统的数据中心设置中,同步(即工作人员等待彼此同步)和异步(即工作人员独立运行而不需要同步)方案都是并行化迭代优化算法的常用方案,每种方法都有优缺点[37],[53]。同步方案很简单,保证了串行等效的计算模型,但是,在面对设备变异性[53]时,它们也更容易受到掉队的影响。异步方案是一种很有吸引力的方法,用于缓解异构环境中的掉线现象,特别是在共享内存系统[37]中。然而,它们通常依赖于有限延迟假设来控制过时程度[37]。对于设备k,陈旧程度取决于自设备k从中央服务器提取以来已经更新的其他设备的数量。尽管异步参数服务器在分布式数据中心[37]中已经取得了成功,但是经典的有界延迟假设在联邦设置中可能是不现实的,联邦设置中的延迟可能是数小时到数天的顺序,或者完全没有限制。

活跃抽样Active sampling
在联合网络中,通常只有一小部分设备参与每一轮训练;但是,绝大多数联邦方法,例如[5]、[25]和[31]中描述的方法,在某种意义上是被动的,它们的目的不是影响哪些设备参与。另一种方法是在每一轮中积极选择参与设备。例如,Nishio和Y onetani[36]基于系统资源探索新的设备采样策略,目的是让服务器在预定义的时间窗口内聚合尽可能多的设备更新。然而,这些方法假定网络的系统特性是一个静态模型;如何最好地扩展这些方法来处理实时的、设备特定的计算波动和通信延迟仍然是开放的。此外,尽管这些方法主要关注系统的可变性来执行主动采样,但我们注意到,也值得考虑基于底层统计结构对一组小但具有充分代表性的设备进行主动采样。

容错Fault sampling
在系统社区中得到了广泛的研究,它是经典分布式系统的基本考虑因素,包括形式主义,如拜占庭故障[50]。最近的工作还专门研究了数据中心环境中的机器学习工作负载的容错。然而,当通过远程设备进行学习时,容错就变得更加重要了,因为在给定的培训迭代[5]完成之前,一些参与设备通常会在某个点退出。一个实用的策略是简单地忽略此类器件故障,如FedAvg[5],如果故障器件具有特定的数据特征,则可能会在器件采样方案中引入偏差。例如,来自偏远地区的设备可能会因为网络连接差而更容易掉落,因此经过训练的联邦模型会偏向网络条件较好的设备。
从理论上讲,尽管最近有几项研究对联邦学习方法[52]变体的收敛保证进行了研究,但很少有分析考虑低参与性[25]、[42]或直接研究掉设备[50]的影响。FedProx处理系统异构性的方法是,允许每个选定的设备执行符合底层系统约束的部分工作,并通过最近的术语安全地合并这些部分更新(见“非i.i.d的收敛保证”)。数据”一节以进行更详细的讨论)。编码计算是通过引入算法冗余来容忍设备故障的另一种选择。最近的工作探索了使用代码来加速分布式机器学习训练[11]。例如,在存在杂散点的情况下,梯度编码及其变体[11]在计算节点之间小心地复制数据块(以及这些数据块上的梯度计算),以获得真实梯度的精确或不精确恢复。尽管对于联邦设置而言,这似乎是一种很有前途的方法,但这些方法在联邦网络中面临着基本的挑战,因为由于隐私限制和网络规模,跨设备共享数据/复制通常是不可行的。

Statistical heterogeneity统计学异质性
在对异构数据建模和分析相关培训过程的收敛行为方面,从跨设备高度非同一性分布的数据培训联合模型时,会遇到挑战。我们将在下一节中讨论相关工作。

建模异构数据Modeling heterogeneous data
在机器学习方面,有大量的文献通过元学习和多任务学习等方法建模统计异质性;这些想法最近被扩展到联邦设置[12],[14],[21]。例如,MOCHA[42],一个为联邦设置设计的优化框架,可以通过为每个设备学习独立但相关的模型来实现个性化,同时通过多任务学习利用共享表示。该方法对所考虑的目标具有可证明的理论收敛性保证,但其可扩展到大规模网络的能力有限,且仅限于凸目标。另一种方法[12]将星型拓扑模型作为贝叶斯网络,并在学习过程中执行变分推理。虽然该方法可以处理非凸函数,但推广到大型联邦网络代价较大。Khodak等人的[21]可以证明利用多任务信息(其中每个任务对应一个设备)来学习任务内的学习率,并证明了比普通FedAvg更好的经验表现。Eichner等人的[14]研究了一种多元化的解决方案(在全局模型和设备特定模型之间进行自适应选择),以解决联邦训练期间数据样本中的循环模式。尽管最近取得了这些进展,但在开发在联邦设置中健壮、可伸缩和自动化的异构建模方法方面仍然存在关键挑战。
在建模联邦数据时,考虑准确性以外的问题也很重要,比如公平性。特别是,单纯地解决一个总损失函数,如在(1)中,可能会隐含地对某些设备有利或不利,因为学习的模型可能会偏向具有更大数据量的设备,或(如果设备权重相等),偏向通常发生的设备组。最近的研究提出了改进的建模方法,旨在减少模型性能在设备[19],[26],[33]之间的差异。一些启发式方法只是根据设备[19]的本地丢失执行不同数量的本地更新。其他更有原则的方法包括不可知论的联邦学习[33],它通过极大极小优化方案优化由混合客户端分布形成的任何目标分布的集中模型。Li等人[26]采用了另一种更普遍的方法,该方法提出了一个称为q-FFL的目标,在该目标中,具有较高损耗的器件被赋予较高的相对权重,以减少最终精度分布中的方差。除了公平问题之外,我们注意到,联邦学习中的问责和可解释性等方面也值得探索,但由于网络的规模和异质性,可能具有挑战性。

收敛保证非IID数据Convergence guarantees for non-i.i.d. data
统计异质性在分析联邦环境下的收敛行为方面也提出了新的挑战——即使是在学习单一的全局模型时。事实上,当数据在网络中的设备上不是相同分布时,当选择的设备执行过多的本地更新[25],[31]时,FedAvg等方法在实践中可能会出现分歧。平行的SGD和相关变异,可以进行类似FedAvg的局部更新,已经在i.i.d.设置[38],[48],[53]中进行了分析。然而,结果依赖于每个本地解算器是相同随机过程的副本的前提(由于i.i.d.假设),这在典型的联邦设置中不是这样。为了了解FedAvg在异质环境下的性能,人们最近提出了feprox[25]。FedProx的核心思想是系统异质性和统计异质性之间存在相互作用。如前所述,由于系统约束而简单地丢弃网络中的掉队者可能会隐式地增加统计异质性。FedProx对FedAvg方法做了一个小小的修改,允许基于底层系统约束跨设备执行部分工作,并利用近端项安全地合并部分工作。它可以被看作是FedAvg的重新参数化,因为调整feprox的近端项与调整FedAvg的局域周期数E是等效的。但是,对受系统条件限制的设备设置E是不现实的。因此,最近的术语有两个好处:1)它通过限制本地更新更接近初始(全局)模型来鼓励更多行为良好的本地更新;2)它安全地合并来自选定设备的部分更新。理论上,FedProx使用不同度量来捕获网络中的统计异质性,并在有界器件不同假设下为凸函数和非凸函数提供收敛保证。收敛分析还包括每个设备在本地执行可变数量的工作的设置。其他一些著作[27],[52]也推导出了不同假设下异构数据的收敛保证,如凸性[27]或一致有界梯度[52]。还有一些启发式方法旨在处理统计异质性,要么通过共享本地设备数据,要么通过共享一些服务器端代理数据[19],[20]。然而,这些方法可能是不现实的:除了对网络带宽造成负担外,将本地数据发送到服务器违反了联邦学习的关键隐私假设,并且将全局共享代理数据发送到所有设备需要努力小心地生成或收集这些辅助数据。

【FedProx的核心思想是系统异质性和统计异质性之间存在相互作用。】

Privacy隐私
隐私问题常常促使人们在联邦设置中将原始数据保存在每个设备上;然而,共享其他信息(如作为培训过程一部分的模型更新)也会泄露敏感的用户信息。例如,Carlini等人的[10]证明,人们可以从对用户语言数据进行训练的循环神经网络中提取敏感的文本模式,例如特定的信用卡号码。鉴于人们对隐私保护学习方法越来越感兴趣,在“机器学习中的隐私”一节中,我们首先简要回顾一下在一般(分布式)机器学习环境中增强隐私的工作。然后,我们将在“联邦学习中的隐私”一节中回顾最近专门为联邦设置设计的隐私保护方法。
机器学习中的隐私学习Privacy in machine learning
本文简要回顾了机器学习中保护隐私的三种主要策略,分别是用于通信噪声数据草图的差分隐私策略、用于对加密数据进行操作的同态加密策略以及安全函数评估(SFE)或多方计算策略。在这些不同的隐私方法中,由于其强大的信息理论保障、算法简单和相对较小的系统开销,差异隐私[13]得到了最广泛的应用。简单地说,如果一个输入元素的改变不会导致输出分布有太大的差异,那么随机化机制就是差别私有的;这意味着我们无法得出任何关于在学习过程中是否使用了特定样本的结论。这种样本级隐私可以在许多学习任务中实现。对于基于梯度的学习方法,一种流行的方法是通过在每次迭代时随机扰动中间输出来应用差分隐私。在应用扰动(例如通过二项式噪声[1])之前,通常会裁剪梯度,以绑定每个示例对整体更新的影响。在不同的隐私和模型精度之间存在内在的权衡,因为添加更多的噪声会导致更大的隐私,但可能会显著降低准确性。尽管差异隐私是机器学习中隐私的事实上度量标准,但还有许多其他隐私定义,如k-匿名[15]和d-存在[34],它们可能适用于不同的学习问题。
除了差分隐私之外,同态加密还可以通过对加密数据进行计算来确保学习过程的安全,尽管它目前已被应用于有限的设置,例如训练线性模型[35]。当用户生成的数据分布到不同的数据所有者时,另一个自然的选择是通过SFE或SMC执行隐私保护学习。生成的协议可以使多方协作地计算一个商定的函数,而不泄露任何一方的输入信息(除了可以从输出推断出来的信息)。因此,SMC虽然不能保证信息的泄露,但可以与差分隐私相结合,实现更强的隐私保障。然而,这些方法可能不适用于大规模机器学习场景,因为它们需要大量额外的通信和计算成本。我们建议有兴趣的读者参阅[7],以便对基于同态加密和SMC的方法进行更全面的回顾。

【目前旨在提高联邦学习的隐私性的工作,通常建立在以往的经典加密协议如SMC和差分隐私的基础上】

联邦学习中的隐私问题Privacy in federated learning
联邦设置对现有的隐私保护算法提出了新的挑战。除了提供严格的隐私保障外,还必须开发出计算成本低、通信效率高、能容忍丢弃设备的方法——所有这些都不会过度牺牲准确性。尽管在联合学习中存在各种各样的隐私定义,但通常可以将其分为两类:全局隐私和局部隐私。如图5所示,全局隐私要求每一轮生成的模型更新对除中央服务器外的所有不受信任的第三方都是私有的,而本地隐私进一步要求更新对服务器也是私有的。
目前的工作旨在提高联邦学习的隐私性,通常建立在以前的经典加密协议,如SMC[4]和差异隐私[2],[32]。Bonawitz等人的[4]引入了一个安全的聚合协议来保护个体模型更新。中央服务器不能看到任何本地更新,但仍然可以观察每一轮的精确汇总结果。安全聚合是一种无损的方法,可以保持原有的准确性,并具有很高的隐私保证;然而,由此产生的方法会产生显著的额外通信成本。其他作品将差异隐私应用于联合学习,提供全球差异隐私(如[32]);这些方法有许多超参数,影响通信和准确性,必须谨慎选择。在需要更强的隐私保障的情况下,Bhowmick等人通过限制潜在对手的力量,引入了一个宽松的本地隐私版本。它比全局隐私提供了更强的隐私保障,比严格的局部隐私具有更好的模型性能。Li等人[24]提出了元学习背景下的局部差分私有算法,该算法可以应用于具有个性化的联合学习,同时也提供了凸设置下可证明的学习保证。此外,可以将差分隐私与模型压缩技术相结合,以减少通信,同时获得隐私利益。

2021-09-16_第5张图片

图5。在一轮联合学习中展示了不同的隐私增强机制。M表示用于私有化数据的随机机制。(a)没有额外隐私保护机制的联合学习;(b)全局隐私,假设有可信服务器;©本地隐私,其中中央服务器可能是恶意的。

【分布式优化中最常被研究的两种通信方案是批量同步方法和异步方法。】

FUTRUE DIRECTION未来发展方向
联合学习是一个积极和持续的研究领域。尽管最近的工作已经开始解决“相关和当前工作调查”部分所讨论的挑战,但仍有一些关键的开放方向有待探索。在本节中,我们将围绕前面讨论的挑战(昂贵的通信、系统异构性、统计异构性和隐私问题)简要概述几个有前景的研究方向,并介绍与联邦设置中的生产和基准测试等问题相关的其他挑战。
极端的通信方案Extreme communication schemes
在联合学习中,有多少交流是必要的,这还有待观察。事实上,众所周知,用于机器学习的优化方法可以容忍精度的缺乏;事实上,这个错误可以帮助泛化[49]。尽管在传统的数据中心设置[29]中已经探索了一次性或分而治之的通信方案,但这些方法在大规模和统计异构网络中的行为尚未得到很好的理解。

沟通减少和帕累托前沿Communication reduction and the Pareto frontier
讨论了联合训练中减少通信的几种方法,如局部更新和模型压缩。理解这些技术是如何相互组合的,并系统地分析每种方法的准确性和沟通之间的权衡是很重要的。特别是,最有用的技术将在帕累托前沿证明改进,即在相同的通信预算下实现比任何其他方法更高的准确性,理想情况下,跨越广泛的通信/准确性分布。对于有效的神经网络推断[3]也进行了类似的综合分析,这对于以有意义的方式比较联合学习的通信减少技术是必要的。

新颖的异步模型Novel models of asynchrony
正如在“异步通信”一节中所讨论的,分布式优化中最常研究的两种通信方案是批量同步方法和异步方法(其中假定延迟是有界的)。这些方案在数据中心设置中更加现实,因为工作节点通常用于处理工作负载,也就是说,它们准备在“推送”上一个任务的结果之后立即从中心节点“拉出”下一个任务。相比之下,在联邦网络中,每个设备通常不是专用于手头的任务的,而且大多数设备在任何给定的迭代中都不是活动的。因此,有必要研究这种更现实的以设备为中心的通信方案的效果,在这种方案中,每个设备都可以决定何时“唤醒”,即从中心节点提取一个新任务并执行一些本地计算。

异构性诊断Heterogeneity diagnostics
最近的一些研究旨在通过指标量化统计异质性,如局部差异(在[25]的联邦学习背景中定义,并在[51]等著作中用于其他目的)。然而,在训练发生之前,这些度量指标在联合网络上很难计算。这些度量标准的重要性激发了以下开放性问题:1)是否存在简单的诊断方法来快速确定联邦网络的异质性水平?2)是否可以开发类似的诊断方法来量化系统相关异质性的数量?3)能否利用现有的或新的异构定义设计新的联合优化方法,提高收敛性,无论是经验上还是理论上?

细粒度的隐私约束Granular privacy constraints
“联邦学习中的隐私”一节中概述的隐私定义涵盖了本地或全球层面上关于网络中所有设备的隐私。然而,在实践中,可能有必要在更细粒度的层面上定义隐私,因为隐私约束可能在不同设备甚至单个设备上的数据点上有所不同。例如,Li等人[24]最近提出了特定于样本(而不是特定于用户)的隐私保证,从而提供了一种较弱形式的隐私,以换取更准确的模型。开发处理混合(特定于设备或特定于样本)隐私限制的方法是未来工作的一个有趣和正在进行的方向。

除了监督学习Beyond supervised learning
值得注意的是,到目前为止讨论的方法都是考虑到监督学习任务而开发的,也就是说,它们假定联邦网络中的所有数据都有标签。实际上,在现实的联邦网络中生成的许多数据可能是未标记或弱标记的。此外,当前的问题可能不是如(1)所述的将模型与数据相匹配,而是执行一些探索性的数据分析,确定总体统计数据,或执行更复杂的任务,如强化学习。要解决联邦网络中监督学习之外的问题,可能需要解决可伸缩性、异构性和隐私方面的类似挑战。

将联合学习投入生产Productionizing federated learning
除了本文讨论的主要挑战之外,在生产环境中运行联合学习还会出现许多实际问题。特别是,必须小心处理概念漂移(当底层数据生成模型随时间变化时)、日变化(当设备在一天或一周的不同时间表现出不同行为时)[14]和冷启动问题(当新设备进入网络时)。我们向读者推荐[5],它讨论了生产联合学习系统中存在的一些与实际系统相关的问题。

基准Benchmarks
最后,由于联合学习是一个新兴领域,我们正处于塑造该领域发展的关键时刻,必须确保它们基于真实世界的设置、假设和数据集。对于更广泛的研究团体来说,进一步构建现有的基准测试工具和实现(如LEAF[54]和TensorFlow Federated[55])是至关重要的,以促进实证结果的再现和联邦学习新解决方案的传播。

CONCLUSIONS结论
在本文中,我们概述了联合学习,这是一种学习范式,在分布式网络的边缘训练统计模型。我们讨论了与传统的分布式数据中心计算和经典的隐私保护学习相比,联合学习的独特性质和相关挑战。我们提供了对经典结果的广泛调查,以及最近专门关注联邦设置的工作。最后,我们提出了一些有待进一步研究的问题。提供这些问题的解决方案需要广泛的研究团体的跨学科努力。

你可能感兴趣的:(机器学习)