本文主要是联邦学习的入门级笔记,主要参考了论文Advances and Open Problems in Federated Learning和微众银行的联邦学习白皮书,笔者作为初次接触该领域的小白,对感觉必要的知识做一个总结和记录。
本文首发于我的个人博客
原文请点击这里!!!!!
联邦学习(Federated Learning简称FL)是一种机器学习设置,其中多个实体(客户端)在中央服务器或服务提供商的协调下协作解决机器学习问题。每个客户的原始数据都存储在本地,并且不会交换或转移;从而代替了用于立即聚合的有针对性的更新用于实现学习目标。
分类(Yang分类):
另一种分类方式:
客户端计算,聚合和模型更新阶段的分离并不是对联邦学习的一个严格要求,并且确实排除了某些种类的算法,例如异步SGD,其中每个客户端的更新在应用之前都会立即应用于模型与其他客户端的更新进行汇总。这样的异步方法可以简化系统设计的某些方面,并且从优化角度来看也是有益的(尽管这一点尚有争议)。
1.非独立同分布的数据
2.有限通信带宽
3.不可靠和有限的设备
什么是Non-IID非独立同分布数据?
下面列举了数据偏离同分布的一些常见方式,即对于不用的客户端 i i i和客户端 j j j的分布不同 P i ≠ P j P_i \not= P_j Pi=Pj。我们将 P i ( x , y ) P_i(x,y) Pi(x,y)重写为 P i ( y ∣ x ) P i ( x ) P_i(y|x)P_i(x) Pi(y∣x)Pi(x)和 P i ( x ∣ y ) P i ( y ) P_i(x|y)P_i(y) Pi(x∣y)Pi(y)让我们能够更加准确地描述他们的区别。
特征分布倾斜(协变量飘移):即使共享 P ( y ∣ x ) \mathcal{P}(y|x) P(y∣x),不同客户端上的边缘分布 P i ( x ) \mathcal{P}_i(x) Pi(x)也可能不同。比如,在手写识别领域,用户在书写同一个单词时也可能有着不同的笔画宽度、斜度等。
标签分布倾斜(先验概率飘移):即使 P ( x ∣ y ) \mathcal{P}(x|y) P(x∣y)是相同的,对于不同客户端上的边缘分布 P i ( y ) \mathcal{P}_i(y) Pi(y)也可能不同。比如,当客户端与特定的地理区域绑定时,标签的分布在不同的客户端上是不同的。比如:袋鼠只在澳大利亚或动物园里;一个人的脸只在出现在全球的几个地方;对于手机设备的键盘,某些特定人群使用某些表情,而其他人不使用。
标签相同,特征不同(概念飘移):即使共享 P ( y ) \mathcal{P}(y) P(y),不同客户端上的条件分布 P i ( x ∣ y ) P_i(x|y) Pi(x∣y)也可能是不同。由于文化差异,天气影响,生活水平等因素,对于相同的标签 y y y,对于不同的客户端可能对应着差异非常大的特征 x x x。比如:世界各地的家庭图片千差万别,衣着也千差万别。即使在美国,冬季停放的被大雪覆盖汽车的图像只会出现在某些地区。同样的品牌在不同的时间和不同的时间尺度上看起来也会有很大的不同:白天和晚上、季节效应、自然灾害、时尚设计潮流等等。
特征相同,标签不同(概念飘移):即使 P ( X ) \mathcal{P}(X) P(X)是相同的,对于不同客户端上的条件分布 P i ( y ∣ x ) P_i(y |x) Pi(y∣x)也可能不同。由于个人偏好,训练数据项中的相同特征向量可能具有不同的标签。例如,反映情绪或单词联想的标签有着个人和地区差异。
数量倾斜或者不平衡:不同的客户可以拥有着样本数量差异很大的数据。
非独立同分布数据的处理方法,包括可用客户端的数据分布 i ∼ Q i \sim Q i∼Q(针对客户端采样分布不均匀)和客户端的数据分布 ( x , y ) ∼ P i ( x , y ) (x,y) \sim \mathcal{P}_i(x,y) (x,y)∼Pi(x,y)都是Non-IID的,
现在已经有了一些解决方法,例如通过全局共享的数据集给客户端补足数据;或者是专门设计针对Non-IID的优化算法,或者为不同客户端提供不同的模型。
研究IID和Non-IID数据集的收敛率,不管联邦学习的数据是否为IID,目前FedAvg都已经被证明是收敛的,[1]证明IID数据是收敛的,[2],[3]证明对于Non-IID数据是收敛的。
[1].Sebastian U Stich. Local SGD converges fast and communicates little. In International Conference on Learning Representations (ICLR), 2019.
[2].Ahmed Khaled, Konstantin Mishchenko, and Peter Richtarik. First analysis of local GD on heterogeneous data, 2019. URL https://arxiv.org/abs/1909.04715.
[3].Xiang Li, Kaixuan Huang, Wenhao Yang, Shusen Wang, and Zhihua Zhang. On the convergence of fedavg on non-IID data. arXiv preprint arXiv:1907.02189, 2019.
可以考虑从以下几个方面来优化效率和有效性
个性化:增加输入特征。
多任务学习:在所有任务中共享一些参数(一般底层),在特定任务层(顶层)使用自己独有参数,可以考虑将任务作为客户端的子集然后与FL结合。
元学习:Meta Learning(元学习)希望使得模型获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务,目前已经有模型不可知元学习算法(MAML)可以与FL结合,但领域较新,还存在诸多问题。
改进FL的训练机制:可以考虑是否能以全局模型为每个客户端定制化自己的模型。
中心服务器分发初始模型时参数的设置:在资源有限的移动设备上使用不同的超参数进行多轮培训可能会受到限制。对于小型设备,这可能导致过度使用有限的通信和计算资源。
神经网络结构设计:对于non-IID数据分布,可能会有更好的网络体系结构设计。
训练过程中的调试:在传统机器学习中,经验丰富的建模人员可以直接检查子数据集的任务,比如调试错误分类\发现异常值\手动标记样本或检测训练集中的偏差。然而这在联邦学习中是行不通的,开发隐私保护技术来解决此类去中心的问题是主要的开放性问题上。
主要可以从三个方面提高通信效率:
(a)梯度压缩,减少从客户端到服务器通信的对象的大小,该对象用于更新全局模型;
(b)模型广播压缩,减小从服务器向客户端广播的模型的大小,客户端从该模型开始本地训练;
©减少本地计算(其实也是一种算法压缩),修改整体训练算法,使本地训练过程在计算上更加高效。
目前的压缩方法:
量化方法:降低更新参数的分辨率,例如:将参数整数化,二值化。
低秩矩阵:将通信内容结构化,低秩分解。
稀疏化:只传递足够重要的信息,例如:设置参数矩阵的阈值百分比。
知识蒸馏:将大模型知识迁移到小模型(有点类似元学习?),例如根据大模型生成小模型,在客户端训练小模型。
首先,明确一个问题,我们需要抵御什么样的威胁?
在联邦学习中,对隐私风险的规范处理需要一种整体的、跨学科的方法。对于一些风险类型,可以通过将现有技术扩展到指定场景中从而保护隐私和减轻风险,而其他更复杂的风险类型则需要跨学科的协同努力。
下表是联邦学习需要抵御的威胁
其次,这方面的研究涉及到的工具与技术主要有三个方向:
安全计算
隐私保护
本地差分隐私
分布式差分隐私
通过安全聚合实现分布式差分隐私
通过安全shuffling实现分布式差分隐私
混合差分隐私
可验证性
零知识证明(ZKPs)
可信执行环境中的远程证明
主要作用:
1.证明服务器已经进行了聚合,shuffle,或者添加差分隐私的操作。
2.证明client输入的数据符合某项规范
具体细分方向大概可以分为以下几个方面:
量化联邦学习模型对特定攻击的效果
最常用的量化方法是使用特定数据集模拟对模型的攻击,然后评估模型的效果(该数据集与实际中预期的数据集类似)。如果代理数据集确实与最终用户数据相似,那么这就可以量化模型的攻击敏感性。通过这种方法可以确定数据集对模型的影响效果,比如确定一个最坏影响的上限。可以设计新的可处理方法来量化模型的平均情况或最坏情况下的攻击敏感性。
中心式差分隐私
我理解为在服务器进行加密操作,以限制或消除从迭代中可以了解到的关于用户的信息,可以在FL的迭代训练过程中裁剪单词更新(比如shuffle),服务器聚合客户端的结果,然后将高斯噪声加入结果,也有研究在采用其他噪声或方案来实现中心式差分隐私。
模型迭代过程中的安全问题
模型迭代(即每轮训练后模型的更新版本)被假定为对系统中的多个参与者可见,包括选择参与该轮的服务器和客户端。为了向客户端隐藏迭代,每个客户端都可以在提供保密特性的TEE中运行其联邦学习的本地部分,服务器将验证预期的联邦学习代码是否在TEE中运行(依赖于TEE的认证和完整性功能),然后将加密的模型迭代结果传输到设备,以便它只能在TEE中解密。最后,模型更新将在返回到服务器之前在TEE内部加密,使用仅在安全环境内部和服务器上已知的密钥。
动态数据库或时间序列数据的差分隐私
随时间变化的收集到的一系列数据也存在隐私泄露的风险。
防止模型被滥用
我的理解为,在模型推理时,使用一些方法来保护模型参数,使其对用户不可见,这样模型就不会被泄露与滥用,这与TEE和MPC技术高度相关,目前该领域仍然没有太多好的解决方案。
女巫攻击,是指模仿出多种身份进行的攻击就是女巫攻击,生活中常见的就是利用多个ip地址刷量、刷赞。
这是恶意攻击者想要控制服务器的最常见的威胁。
以下是目前已有方案的一些缺陷
1.本地差分隐私(LDP)
如果要实现与传统的中心式差分隐私效果相同的话(即由中央服务器进行加密或者可信第三方加密操作),就需要相对较大的用户群或较大的保密参数选择(意思为隐私级别较低)
2.混合差分隐私(HDP)
目前的研究都是基于独立同分布的。
3.shuffle模型
shuffle模型需要中介或可信第三方来执行shuffle操作。
4.安全聚合模型
该协议比较适合FL,是为FL量身定制的,但是也存在一些局限性。
- 它假设服务器并不完全是恶意的
- 允许服务器查看聚合后的结果
- 聚合效率不高
- 无法检测客户端输入格式是否正确
分布式差分隐私
可以使用本节刚开始介绍的分布式差分隐私来保证FL的安全性,在安全聚合协议、差分隐私的实现方法、用户掉线等问题还存在诸多研究的空间。
保证用户在训练子模型时的选择隐私性
客户将在参与时下载完整模型,使用与他们相关的子模型,然后提交涵盖整个模型参数的集合的模型更新(即,除了与相关子模型相对应的条目中,其余所有地方都为零)。这样我们需要,在保持客户的子模型选择私密性的同时,实现沟通效率高的子模型联合学习,即,不能让服务器观察到客户端选择了哪个子模型。
对模型的攻击
模型更新中毒
拜占庭攻击
拜占庭用户可以给服务器发送任意值,而非发送本地更新后的模型。这会导致全局模型在局部最优处收敛,甚至会导致模型发散。可以采用基于中值的,或者其他的等更加健壮的聚合方法来减弱这类攻击。
另一种模型更新中毒防御机制使用冗余和洗牌数据来减轻拜占庭式攻击。
针对性模型更新攻击
攻击者控制一小部分客户端,比如10%,通过将毒药数据发送给服务器从而给模型留下后门。
中毒模型更新的外观和行为(在很大程度上)类似于没有受到目标攻击的模型,这使得单单是检测后门的存在就十分困难。此外,由于对手的目标是只影响少量数据点的分类结果,同时保持全局学习模型的整体准确性,因此针对非目标攻击的防御通常无法解决目标攻击。
现有的针对后门攻击的防御要么需要仔细检查训练数据、访问一组类似分布式数据的保留集,要么需要完全控制服务器上的训练过程,而在联邦学习设置中这些都不可能实现。
未来工作可以尝试的一个有趣途径是探索使用零知识证明来确保用户提交的更新属性是预先确定的属性。基于硬件认证的解决方案也可以考虑。例如,用户的手机可能有能力证明共享的模型更新是使用手机摄像头生成的图像正确计算的。
数据中毒
数据中毒是一种比模型更新中毒更具潜在限制性的攻击类型。在这种模式下,对手不能直接损坏到发送到中心节点的信息。相反,对手只能通过替换数据的标签或特定特征来操作客户端数据。与模型更新中毒一样,数据中毒可以分为针对攻击和非针对攻击。
数据中毒会导致模型更新中毒,在联邦学习中,即便只是检测有毒数据的存在(不要求对其纠正或用有毒数据标识被入侵的客户端)也是一项挑战。当该数据中毒攻击企图安装后门时,该困难还将进一步增大,因为就算是全局训练精度或单用户训练精度这些性能指标也不足以探测出后门的存在。
相比模型更新中毒,数据中毒可能实现起来非常简单,可以执行数据中毒攻击的客户端的最大数量可能比能执行模型更新中毒攻击的数量高得多。
推理阶段的攻击(Evasion Attacks )
攻击者可以通过观察模型(黑盒模型)或者直接获取模型参数(白盒模型)来定制化数据,使得模型输出错误的结果,对抗性训练(adversarial training)被证明应对这种攻击是有效的。
但是,将对抗性学习方法引入到联邦学习环境中的需求引发了许多新的问题。例如,对抗训练在获得显著的稳健性之前可能需要许多时间。然而,在联邦式学习,尤其是跨设备的联邦式学习中,每一种训练样本的学习次数是有限的。一般来说,对抗性训练主要是针对IID数据开发的,尚不清楚它在非IID环境下的表现。
其次生成对抗性样本相对昂贵。虽然一些对抗性训练框架试图通过重用对抗性样本来最小化这一成本,但这些方法仍然需要大量客户端计算资源。这在算力较弱的客户端中可能存在问题,在这种情况下,对抗性样本生成可能会加剧内存或电量的使用。
目前想要同时解决推理阶段的攻击和训练阶段的攻击,更复杂的解决方案可能是将训练时间防御(如健壮聚合或差异隐私)与对抗训练结合起来
非恶意的意外错误
客户端的不稳定性
客户端在训练过程中出现故障,目前看来,使用安全聚合的方式实现FL时,当大量设备掉线时可能存在影响隐私风险。
这其中降低故障的方法就是提高安全聚合的效率,这样可以降低时间窗口。
另一种方法是开发一种异步的安全聚合方法,还有一种想法是每次采用多轮训练的参数,这样掉队的客户端可能会在后续聚合中。
数据管道故障
数据管道存在于客户端,主要用于将原始数据处理为适应FL训练的训练数据,此管道中的错误或意外操作可能会极大地改变联邦学习过程。
模型参数带噪(失真,由于网络不稳定或其他原因)
即使不存在攻击者,发送到服务器的模型更新也可能由于网络和体系结构因素而失真。这在跨客户端设置中尤其可能,在这些设置中,单独的实体控制服务器、客户端和网络。由于客户端数据可能会发生类似的失真。即使客户端上的数据不是故意恶意的,它也可能具有噪声特征。
无论是由于网络因素还是噪声数据,上述的污染都可能损害联邦学习过程的收敛性。
一种缓解策略将是使用防御措施来对抗模型更新和数据中毒攻击。鉴于目前在联邦环境下缺乏明显的健壮训练方法,这可能不是一个实际的选择。即使存在这样的技术,它们对于许多联邦学习应用来说可能过于计算密集。
这里的开放性工作涉及开发对小到中等水平的噪声具有鲁棒性的训练方法。例如,标准联邦训练方法(如联邦平均法[289])对少量噪声具有内在的鲁棒性。
保护隐私和鲁棒性之间存在矛盾关系
机器学习模型通常会表现出令人惊讶和意想不到的行为。 当此类行为导致对用户产生不良影响的模式时,我们可能会根据一些标准将模型归类为“不公平”。例如,如果具有相似特征的人得到的结果完全不同,则这违反了个人公平的标准[149]。如果某些敏感群体(种族,性别等)得到不同的结果模式—例如不同的假阴性率,则可能违反人口统计学公平性的各种标准,参见[48,300]。
机器学习模型中不公平的一个驱动因素是训练数据中的偏差,包括认知,抽样,报告和确认偏差。
一种常见的场景是训练数据中少数民族或边缘化社会群体的代表不足,因此学习者在训练期间对这些群体的加权较小[222],导致对这些群体成员的预测质量较差(例如[85]),这可能会引发一些种族歧视或者其他的问题。
由于联邦学习中的数据是非独立同分布的,那么这种类型的偏差存在十分普遍。
对于联邦学习研究和机器学习研究而言,调查可识别或减轻数据生成过程中偏差的程度是一个关键问题。同样,尽管有限的先前研究已经证明了在联邦环境中识别和纠正已经收集的数据中的偏差的方法(例如,通过[268]中的对抗方法),但仍需要在这一领域进行进一步的研究。
明确地使用属性无关的方法来确保公平的模型性能对于未来的联邦学习研究是一个开放的机会,尤其重要的是,随着联邦学习达到成熟,当看到更多的采用真实的用户群进行部署,过程中不需要了解用户的敏感身份。
例如,模型性能在设备之间的更公平分布。
模拟软件 联邦学习的模拟需要处理数据中心ML研究中不会出现的多个问题,例如,有效地处理划分数据集,并在不同的模拟设备上运行计算,每个计算具有可变的数据量。FL研究还需要不同的指标,例如设备上传或下载的字节数,以及模拟问题的能力,例如不同客户端的信息到达或客户端的退出可能与本地数据集的性质相关。考虑到这一点,用于联邦学习研究(模拟)的开放软件框架的开发具有极大地加速研究进展的潜力。 有几种平台可用或正在开发中,包括[345]:
TensorFlow Federated [38]专门针对研究用例,提供大规模模拟功能以及灵活的编排来控制采样。
PySyft [342]是用于安全的私有深度学习Python库。 PySyft使用PyTorch中的联邦学习,差分隐私和多方计算(MPC)将私人数据与模型训练分离。
Leaf [35]提供了多个数据集(见下文)以及模拟和评估功能。
产品导向的软件 除了上述模拟平台之外,还开发了一些面向产品的联邦学习平台:
这种面向生产的联邦学习平台必须解决模拟中不存在的问题,例如身份验证,通信协议,加密以及将其部署到物理设备或孤岛。请注意,虽然TensorFlow Federated在“用于模拟的软件”下列出,但其设计包括聚合和广播的抽象,以及所有TensorFlow计算的序列化,以在非Python环境中执行,使其适合用作生产系统中的组件。
数据集 当数据分散且通常不平衡(不同的客户有不同数量的示例)并且分布不相同(每个客户的数据来自不同的分布)时,我们将采用联邦学习。开源软件包TensorFlow Federated [38]支持在模拟环境中加载分散数据集,每个客户端ID对应于TensorFlow数据集对象。 这些数据集可以轻松转换为numpy数组,以用于其他框架。在撰写本文时,支持三个数据集,我们建议研究人员对其进行基准测试。
Leafproject [88]提供了对EMNIST和Shakespeare的预处理,它还提供了sentiment140和celebA数据集的联邦版本。这些数据集具有足够的客户端,可以用于模拟跨设备FL场景,但是对于规模特别重要的问题,它们可能太小。在这方面,Stackoverflow提供了跨设备FL问题的最现实示例。
跨数据孤岛数据集 一个例子是iNaturalist数据集,它由世界各地各种生物的大量观测组成。 可以按地理位置或观察者进行划分。如果我们按生物体所属的类别进行划分,那么客户的标签就完全不同,并且两个客户之间的生物学亲密关系也已广为人知。这使其成为非常适合在跨数据孤岛环境中研究联邦迁移学习和多任务学习的数据集。
另一个示例是Google-Landmark-v2 [389],其中包含超过500万张超过200,000种不同地标类型的图像。 与iNaturalist数据集相似,作者可以分割该数据集,但是由于iNaturalist数据集的规模不同,Google Landmark数据集提供了更多的多样性,并且对大规模联邦学习提出了更大的挑战。
罗等人[278]最近发布了用于计算机视觉的联邦数据集。数据集包含900个带注释的街道图像,这些图像是由26个街道摄像机和7个对象类别生成的,并在详细的边界框进行了注释。 由于数据集中的示例数量相对较少,因此可能无法充分反映具有挑战性的现实情况。
更多数据集的需求 开发代表现实世界问题的新联邦学习数据集是社区要解决的重要问题。 TensorFlow Federated [38]之类的平台欢迎新数据集的贡献,并且可能能够提供托管支持。
虽然全新的数据集总是很有趣,但是在许多情况下,可以对现有的开放数据集进行划分,将每个拆分作为客户端进行处理。 不同的划分策略可能适用于不同的研究问题,但通常与不平衡和非IID的划分最相关。 保持尽可能多的其他元信息(时间戳,地理位置等)也很有趣。