2020-04-13

联邦学习论文《Advances and Open Problems in Federated Learning》

文章对联邦学习的定义：

联邦学习是多个实体（clients）在一个中央服务器或服务提供方的协调下，协作解决机器学习问题的机器学习设定。每个client的原始数据存储在本地，无法交换或迁移，联邦学习利用局部更新（用于立即聚合）来实现学习目标。

联邦学习中，由一台中央服务器来编排训练过程，并接收全部clients的贡献，完全分散式学习的核心思想是，把与中央服务器的通信改为client个体间的点到点通信

值得注意的是，即使是在上面描述的分散式设定中，也仍然可能由中央机构负责设置学习任务。例如考虑下面的问题：谁决定在分散式环境中训练什么模型？使用什么算法？什么超参数？当某些东西无法按预期工作时，由谁负责调试？要回答这些问题，仍需要参与的client对中央机构有一定程度的信任。

当一个公司由于法律限制无法集中它的数据，或者有相似目标的几家机构想协作提升他们的模型效果时，按照样本partition的cross-silo联邦学习通常是相关的。例如，不同银行可以共同训练分类模型或异常检测模型用于反欺诈（文献407），多家医院能共同建立更好的诊断模型，等等。

激励机制 除了开发新的FL算法技术，诚实参与的激励机制设计是一个重要实践研究问题。这一需求在corss-device中也可能出现，但在cross-silo中尤为重要，因为参与者也可能是商业竞争对手。相关目标包括如何将联邦学习模型产生的收益分配给数据所有者以维持长期参与，以及如何把激励与对抗敌对数据所有者来加强系统安全性的决策、优化数据所有者的参与来提高系统效率的决策联系起来。

拆分学习带来了模型训练并行性的另一个方面，即模型各部分之间的并行化，例如client和服务器。文献213和207中的想法也可能与此相关，通过并行不同部分的计算，作者打破了各局部网络间的依赖关系并减少了总的中心化训练时间。然而，在边缘设备上探索拆分学习的这种并行化仍然是一个悬而未决的问题。拆分学习还可以使client端模型组件与最佳服务器端模型组件相匹配，以自动进行模型选择，如文献353中的ExpertMatcher所示。

超参数调整：

在AutoML [339,237,241]的框架下，超参数优化（HPO）历史悠久，但它主要涉及如何提高模型的准确性[59,364,321,159]，而不是针对移动设备的通信和计算效率。因此，我们期望在联邦学习的背景下，进一步的研究应考虑研发解决方案，以实现高效地超参数优化。

除了通用方法来解决超参数优化问题外，对于特殊的训练空间去针对性地去发展容易调整的优化算法也是一个主要的开放领域。中心式训练已经需要调整学习率、动量、批量大小和正则化等参数。联邦学习可能会添加更多的超参数，如：分别调整聚合/全局模型更新规则和本地客户端优化程序、每轮选择的客户端数量、每轮本地步骤的数量、更新压缩算法的配置等等。除了更高维度的搜索空间之外，联邦学习通常还需要更长的训练时间并受限于有限的计算资源。应该通过对超参数设置具有鲁棒性的优化算法（相同的超参数值适用于许多不同的现实世界数据集和网络结构）以及自适应或自调整[381,75]算法来解决这一挑战。

神经结构设计：

我们建议研究人员和工程师在联邦学习环境中探索神经体系结构搜索（NAS）。这是由于当前使用预定的深度学习模型的方法的缺陷引起的：当用户生成的数据对模型开发人员不可见时，深度学习模型的预定网络结构可能不是最佳的设计选择。例如，神经体系结构可能具有特定数据集的某些冗余组件，这可能导致设备上不必要的计算。对于non-IID数据分布，可能会有更好的网络体系结构设计。

NAS有三种主要方法，它们利用进化算法、强化学习或梯度下降来搜索特定数据集上特定任务的最佳架构。

最近发表的另一篇有趣的论文涉及权重不可知神经网络[170]，声称仅神经网络架构，无需学习任何权重参数，就可以为给定任务提供编码解决方案。如果该技术进一步发展并得到广泛使用，则可以将其应用于联邦学习而无需在设备之间进行协作训练。因此，我们认为在联邦学习环境中针对全局或个性化模型的神经体系结构搜索（NAS）是有希望的研究方向。

压缩目标 由于当前设备中计算机、内存和通信资源的限制，有几个不同的具有实用价值的压缩目标如下：

(a)梯度压缩，减少从客户端到服务器通信的对象的大小，该对象用于更新全局模型；

(b)模型广播压缩，减小从服务器向客户端广播的模型的大小，客户端从该模型开始本地训练；

(c)减少本地计算，修改整体训练算法，使本地训练过程在计算上更加高效。

差分隐私和安全聚合的兼容 ：

现有的噪声添加机制假定在每个客户端上添加实值高斯或拉普拉斯噪声，这与用于减少通信的标准量化方法不兼容。我们注意到，最近的一些工作允许有偏估计，并且可以很好地与Laplacian噪声[371]一起使用，但是无论如何都不会放弃差分隐私，因为它们在两轮之间具有独立性。在增加离散噪声方面有一些工作[13]，但目前还不清楚这些方法是否最佳。因此，联邦设定下具有兼容性和安全性的压缩方法是一个有价值的开放问题。

无线联邦学习协同设计 联邦学习中的现有文献通常忽略了模型训练期间无线通道动态的影响，这有可能破坏训练周期，从而破坏整个生产系统的可靠性。

应用到更多类型的机器学习问题和模型：

贝叶斯神经网络[358]已经被提出并显示出对过度拟合更为健壮，并且可以轻松地从小型数据集中学习。贝叶斯方法通过其参数以概率分布的形式进一步提供不确定性估计，从而防止过度拟合。此外，借助概率推理，人们可以预测不确定性如何减小，从而使网络做出的决策随着数据大小的增长变得更加准确。

由于贝叶斯方法相比深度模型在置信度上拥有丰富的经验，并且在许多任务上也能达到最先进的性能，因此人们希望贝叶斯方法能够为经典的联邦学习提供理论上的改进。实际上，Lalitha等人的初步工作[254]表明，合并贝叶斯方法可用于跨non-IID数据和异构平台的模型聚合。但是，必须解决有关可伸缩性和计算可行性的诸多问题。

不同加密技术及其特性描述：

考虑在联邦学习设置中使用同态加密，会遇到谁该持有该模式的密钥这一问题。虽然每个客户机加密其数据并将其发送到服务器端进行同态计算的想法很有吸引力，但服务器不应该能够解密单个客户机的提交数据。克服这一问题的一个简单方法是依赖一个持有密钥并解密计算结果的外部非合谋方。然而，大多数同态加密方案要求密钥经常更新（例如，由于易受选择密文攻击[102]）。此外，使用信任的非共谋方不在标准的联邦学习设置中。

解决此问题的另一种方法是依赖于分布式（或阈值）加密方案，其中密钥在各方之间分发。Reyzin等人。[336]和Roth等人。[341]提出在跨设备设置中计算总和的这种解决方案。他们的协议使用了加性同态方案（分别是基于ElGamal和基于格的方案的变体）

差分隐私（第4章）：

量化和限制个人信息披露的最新模型是差异隐私（DP）[147，144，145]，其目的是在发布的模型中引入一定程度的不确定性，以充分掩盖任何个人用户的贡献。差异隐私由隐私损失参数(ε,δ)量化，其中较小的(ε,δ)对应于隐私性增强。

本地差异隐私 通过让每个客户机在与服务器共享数据之前对其数据进行差异隐私转换，可以在不需要可信集中服务器的情况下实现差异隐私。也就是说，我们将差分隐私应用于处理单个用户的本地数据集D的机制A，并且保证对任何可能的其他本地数据集*D’*保持相同的性质。LDP已经被谷歌、苹果和微软有效地用于收集大型用户群中热门项目的统计数据[156，135，136]。不幸的是，在保持效用的同时实现LDP是很困难的[229，388]。因此，需要一个介于完全中心和完全本地DP之间的差分隐私模型。这可以通过分布式差异隐私或混合模型来实现，如下所述。

分布式差异隐私 为了在不依赖可信的中心服务器的情况下恢复中心DP的一些实用性，可以使用分布式差分隐私模型[146、356、67、105]。在此模型下，客户机首先计算并编码一个最小（特定应用程序）的报告，然后将编码后的报告通过安全计算函数，该功能的输出可供中央服务器访问，从而在服务器能够检查时，此输出已经满足了不同的隐私要求。编码是为了帮助维护客户端的隐私，可以包括如LDP等隐私项。安全计算功能可以有多种体现。它可以是一个MPC协议，一个在TEE上完成的标准计算，甚至是两者的结合。每种选择都有不同的假设和威胁模型。

混合差分隐私 另一个可行的方法是混合差分隐私[39]，它通过根据用户的信任模型偏好（例如对管理员信任与否）来划分用户，从而组合多个信任模型。在混合模型之前，有两种选择。第一种是使用最不可信的模型，它通常提供最低的效用，并且保守地将其统一应用于整个用户群。第二种方法是使用最信任的模型，它通常提供最高的实用程序，但只应用于最信任管理者的用户。

评估差异隐私实现 众所周知，隐私和安全协议很难正确实现（例如，[296, 192]用于区分隐私）。什么技术可以用来测试FL实现的正确性？由于这些技术通常由那些可能选择不使用开源代码的组织部署，黑盒测试的可能性有多大？一些著作[137，275]开始在差异隐私的背景下探索这一领域，但仍有许多悬而未决的问题。

对不断变化数据的重复分析：

在没有隐私问题的情况下，分析师可以在新数据到达后简单地重新训练所学模型，以确保在任何时候都能达到最大的精度。然而，隐私保证等级随着关于相同数据的附加信息的发布而降低[147, 148]，这些附加信息引起更新的频率必须降低以保持整体分析的隐私性和准确性。

动态数据库和时间序列数据的差异隐私[125, 124, 89]研究的最新进展都假设存在可信的管理员，他们可以在上线时看到原始数据，并发布动态更新的统计数据。一个悬而未决的问题是，如何将这些算法技术扩展到联邦设置，以实现对时间序列数据或其他动态演变数据库的私有联邦学习。

了解特定分析任务的隐私需求：为了使这种方法在实践中提供令人满意的隐私保证，分析人员必须了解用户对其特定分析任务和数据收集程序的隐私需求。可以修改联邦学习框架，以允许各个用户指定他们允许和不允许的推断（inferences）。这些数据限制可以在设备上进行处理，在联邦学习模型更新步骤中仅与服务器共享“允许”信息，也可以在收集数据后将其作为聚合步骤的一部分。应该做进一步的工作来开发将这种用户偏好纳入联邦学习模型的技术工具，并开发对于用户有意义地偏好的技术（meaningful preference elicitation from users.）

行为研究以激发隐私首选项：任何要求个人用户指定自己的隐私标准的隐私保护方法也应包括行为或现场研究，以确保用户可以表达知情的偏好。任何可以获得隐私的方法都需要用户自己来指定隐私保护标准，而且这些方法需要包括行为和领域内的研究，这样就可以保证用户充分地表达自己的偏好（ informed preferences）。这是这些实验的重要参与者，这些实验应遵循道德原则，并且不涉及任何欺骗行为。

对攻击和错误的鲁棒性（第5章）：

现代机器学习系统比较容易受到各种错误的影响。这些错误包括一些非恶意性错误比如预处理流程中的漏洞、噪音过强的训练标签和不可靠的用户，还包括一些旨在破坏系统训练过程和部署流程的显示攻击。在这一章节，我们将反复看到由联邦学习的分布性本质、体系设计和数据限制所产生的新型错误模式和攻击表面。除此之外，我们还将看到联邦学习中保护隐私的安全机制使得检测和排除这些错误、攻击成为了一项特别具有挑战性的任务。

对抗攻击的一些例子包括数据中毒 [63, 277]、模型更新中毒 [42, 61]和模型回避攻击[377,63,186]。这些攻击可以大致分为训练阶段攻击（中毒攻击）和推断阶段攻击（回避攻击）。与分布式数据中心机器学习和中心化学习体系相比，联邦学习主要的不同点在于其模型的训练是基于一批具有私密、不可检查数据集的不可靠设备进行的。

数据清理和网络修剪都不能直接在联邦学习环境中工作，因为它们通常都需要访问客户端数据，或者类似于客户端数据的其他数据。因此，是否可以在联邦环境中使用数据清理方法和网络修剪方法而不丢失隐私，或者针对数据中毒的防御是否需要新的方法，这还是一个悬而未决的问题。

DP是否确实是一种有效的防御手段还有待进一步验证。更重要的是，目前还不清楚DP的超参数（`2范数界和噪声方差）是如何作为模型大小/架构和恶意设备分数的函数来选择的。

虽然差分隐私是一种灵活的防御数据中毒的方法，但它也有一些缺点。其主要缺点是必须在学习过程中加入噪声。虽然这不一定是一个困难，像随机梯度下降这样的常见学习算法已经注入了噪声，但添加的噪声会损害学习模型的性能。除此之外，对手只能控制少数设备。因此，差异隐私可以被视为对数据中毒的一种强有力的防御，同时也可以被视为一种较弱的防御。它的强大之处在于，无论对手的目标是什么，都提供考虑最坏情况的保护方案；它的弱处在于，必须限制对手，并且必须在联邦学习过程中添加噪声。

非恶意故障模式：与数据中心训练相比，联邦学习特别容易受到来自服务提供商控制之外的不可靠客户端的非恶意故障的影响。与对抗性攻击一样，系统因素和数据约束也会加剧数据中心设置中存在的非恶意故障。我们还注意到，设计用于解决最坏情况下对抗性健壮性的技术（将在以下各节中加以描述）也能够有效地解决非恶意故障。虽然非恶意故障通常比恶意攻击的破坏性小，但它们可能更常见，并且与恶意攻击有共同的根源和复杂性。因此，我们期望在理解和防范非恶意故障方面取得进展，同时也为防范恶意攻击提供信息。

联邦学习环境中三种可能的非恶意故障模式：客户端报告故障、数据管道故障和带噪模型更新。

客户机汇报失败的可能解决办法：异步版本，或者，更大胆的推测是，可能会采用在多轮计算中聚合的SecAgg版本。这将允许掉队节点被包含在后续回合中，而不是完全退出当前回合。

数据管道故障的可能解决办法：一种可能的解决方案是使用具有差异隐私的联邦方法训练生成模型，然后使用这些方法合成新的数据样本，这些样本可用于调试底层数据管道[32]。为机器学习开发不直接检查原始数据的通用调试方法仍然是一个挑战。

带噪模型更新的可能解决办法：我们讨论了攻击者从一些客户端向服务器发送恶意模型更新的可能性。即使不存在攻击者，发送到服务器的模型更新也可能由于网络和体系结构因素而失真。这在跨客户机设置中尤其可能，在这些设置中，单独的实体控制服务器、客户机和网络。由于客户端数据，可能会发生类似的失真。即使客户端上的数据不是故意恶意的，它也可能具有噪声特征[301]（例如，在视觉应用中，客户端可能具有输出缩放到更高分辨率的低分辨率相机）或噪声标签[307]（例如，如果用户表示应用程序的推荐并非偶然相关）。虽然跨数据孤岛联邦学习系统（见表1）中的客户端可以执行数据清理以消除此类污染，但由于数据隐私限制，在跨设备设置中不太可能发生此类处理。最后，无论是由于网络因素还是噪声数据，上述的污染都可能损害联邦学习过程的收敛性。

由于这些污染可被视为模型更新和数据中毒攻击的温和形式，因此一种缓解策略将是使用防御措施来对抗模型更新和数据中毒攻击。鉴于目前在联邦环境下缺乏明显的健壮训练方法，这可能不是一个实际的选择。此外，即使存在这样的技术，它们对于许多联邦学习应用来说可能过于计算密集。因此，这里的开放性工作涉及开发对小到中等水平的噪声具有鲁棒性的训练方法。另一种可能性是，标准联邦训练方法（如联邦平均法[289]）对少量噪声具有内在的鲁棒性。研究各种联邦训练方法对不同噪声水平的鲁棒性，将有助于了解如何确保联邦学习系统对非恶意故障模式的鲁棒性。

确保公平并解决偏见的根源（第6章）：

联邦学习为公平性研究带来了一些机会，其中一些扩展了非联邦环境下的先前研究方向，而另一些则是联邦学习所独有的。本节在这两个类别中都提出了未解决的问题。

对于联邦学习研究和机器学习研究而言，调查可识别或减轻数据生成过程中偏差的程度是一个关键问题。同样，尽管有限的先前研究已经证明了在联邦环境中识别和纠正已经收集的数据中的偏差的方法（例如，通过[268]中的对抗方法），但仍需要在这一领域进行进一步的研究。最后，将事后公平校正应用于从可能有偏差的训练数据中学习模型的方法，也是未来工作的重要方向。

公平和数据隐私似乎是互补的道德概念：在许多需要保护隐私的现实世界中，公平也是需要的。通常这是由于基础数据的敏感性所致。由于联邦学习最有可能部署在同时需要私密性和公平性的敏感数据环境中，因此重要的是，FL的研究调查了FL如何能够解决机器学习中存在的关于公平的问题，以及FL是否会引起新的公平相关的问题。

但是，在某些方面，公平的理想似乎与FL试图为其提供保证的隐私概念相抵触：差分隐私学习通常试图掩盖个人识别特征，而公平通常要求了解个人在敏感领域的身份以此来衡量或确保做出公正的预测。尽管已经在非联邦环境中研究了隐私差异与公平之间的权衡[214,127]，但关于FL如何（或是否）能够唯一解决公平问题的研究很少。

参考网址：https://github.com/open-intelligence/federated-learning-chinese/blob/master/chapters/03-efficiency_and_effectiveness.md

2020-04-13

你可能感兴趣的:(2020-04-13)