【文献阅读】联合学习:挑战、方法和未来方向

        本次阅读的是联邦学习的一篇综述Federated Learning: Challenges, Methods, and Future Directions,作者是Tian Li等。


1. 引言

        这篇文章首先提出的是边缘设备的计算能力逐渐加强,再加上对传输私人信息的担忧,引出——在本地存储数据并将网络计算推到边缘越来越有吸引力。然后引出联邦学习的概念,这和许多文献的说法一致。

        文章将要围绕以下几个方面来讨论问题:智能手机,组织(医院等),物联网。

1.1 问题提出

 1.2 核心挑战

挑战1:高额通信开销

        一个关键瓶颈,网络中的通信速度可能比本地计算速度慢很多数量级,需要考虑的两个关键方面是:

  • 减少通信轮的总数;
  • 减少每轮发送的消息的大小。

挑战2:系统异质性

        这里指的是,由于硬件(CPU、内存)、网络连接(3G、4G、5G、wifi)和电源(电池电量)的可变性,联合网络中每个设备的存储、计算和通信能力可能有所不同。此外,每个设备上的网络大小和与系统相关的约束通常只会导致一小部分设备同时处于活动状态,例如,百万设备网络中的数百个活动设备。每个设备也可能是不可靠的,并且由于连接或能量限制,活动设备在给定迭代时退出并不罕见。因此,开发和分析的联合学习方法必须:

  • 预期参与量低
  • 容忍异构硬件
  • 对网络中丢弃的设备具有鲁棒性。

挑战3:统计异质性(这方面之前有总结过文章)

挑战4:隐私问题

        在整个培训过程中传递模型更新可能会向第三方或中央服务器泄露敏感信息,虽然最近的方法旨在使用安全多方计算或差分隐私等工具增强联合学习的隐私,但这些方法通常以降低模型性能或系统效率为代价来提供隐私。在理论和经验上理解和平衡这些权衡是实现私人联合学习系统的一个相当大的挑战。


2. 论文调研

        作者认为已有方法通常无法完全处理联合网络的规模,更不用说系统和统计异质性的挑战了。尽管隐私是许多机器学习应用程序的一个重要方面,但由于数据的统计差异,联合学习的隐私保护方法可能难以严格断言,并且由于每个设备上和潜在的大规模网络上的系统约束,可能更难以实现。

2.1 通信效率

        关键瓶颈。指出了几个一般方向,我们将其分为(1)本地更新方法、(2)压缩方案和(3)分散训练。

2.1.1 本地更新

        主要指出了现有方法的缺陷和现有的比较有效的方法,比如本地更新多轮后再通信,可以牺牲一定的收敛时间达到大幅减少通信开销的作用。

2.1.2 压缩方案

        虽然本地更新方法可以减少通信轮的总数,但模型压缩方案(如稀疏化、二次采样和量化)可以显著减少每轮通信的消息的大小。然而,设备的低参与度、非同分布的本地数据和本地更新方案对这些模型压缩方法提出了新的挑战。

        列举了一些比较常见和泛用的压缩方法,比如使用有损压缩和丢弃减少服务器到设备的通信,应用Golomb无损编码,强制更新模型,变得稀疏和低秩,使用结构化随机旋转执行量化。

2.1.3 去中心化培训(分散式培训)

        简要讨论了分散拓扑(其中设备仅与邻居通信)作为潜在的替代方案。当在低带宽或高延迟的网络上运行时,分散式训练已被证明比集中式训练更快。还有研究提出了分层通信模式通过首先利用边缘服务器来聚合来自边缘设备的更新,然后依靠云服务器来聚合边缘服务器的更新,从而进一步减轻中央服务器的负担。

2.2 系统异质性

        以下讨论基于星形拓扑

2.2.1 异步通信

        同步方案很简单,可以保证一个串行等效的计算模型,但在设备变化的情况下,它们也更容易受到掉队者的影响。异步方案是缓解异构环境中掉队者的一种有吸引力的方法,它们通常依赖于有界延迟假设来控制过时程度,对于设备k,这取决于自设备k从中央服务器拉出以来已更新的其他设备的数量。

        虽然异步参数服务器在分布式数据中心中已经成功,但在联邦设置中,经典的有界延迟假设可能是不现实的,其中延迟可能在数小时到数天的量级上,或者完全无界。

2.2.2 主动采样

        在联合网络中,通常只有一小部分设备参与每一轮训练。绝大多数联合方法都是被动的,因为它们不旨在影响哪些设备参与。另一种方法是在每一轮中主动选择参与设备。

2.2.3 容错

        容错性在系统界得到了广泛的研究,是经典分布式系统的基本考虑因素。当在远程设备上学习时,容错变得更为关键,因为一些参与的设备在给定训练迭代完成之前的某个时间点退出是很常见的。例如,由于网络连接不良,来自偏远地区的设备可能更容易掉线,因此经过训练的联合模型将偏向于具有良好网络条件的设备。

        一种实用的策略是简单地忽略这种设备故障,如果故障设备具有特定的数据特征,这可能会在设备采样方案中引入偏差。编码计算是通过引入算法冗余来容忍设备故障的另一种选择。最近的研究探索了使用代码来加速分布式机器学习训练

2.3 统计异质性(还是那些东西)

2.4 隐私问题

        共享其他信息(如模型更新)也可能泄露敏感用户信息。由于不是我毕设的重点,我就略读了。


3. 未来工作

  • 极端通信方案
  • 沟通减少和帕累托前沿
  • 异步的新模型
  • 异质性诊断
  • 粒度隐私限制
  • 超越监督学习
  • 产品化联合学习
  • 学科基准

你可能感兴趣的:(文献阅读,联邦学习,学习)