BAA(宽带模拟聚合)、CNN(卷积神经网络)、CV(计算机视觉)、
DDQN(双深度Q网络)、DL(深度学习)DNN(深度神经网络)、
DP(差分隐私)、DQL(深度Q学习)、DRL(深度强化学习)、
FedAvg(联邦平均)、FL(联合学习)、GAN(对抗网络)、
IID(独立和同一分布)loT(物联网,车联网)、LSTM(长短期记忆)
MEC(移动边缘计算)、ML(机器学习)、MLP(多层感知器)、
NLP(自然语言处理)、OFDMA(正交频分多址)、SGD(随机梯度下降)
SNR(信噪比)、SVM(支持向量机)、UE(用户设备)、URLLC(超可靠的低延迟通信)
SMPC(安全的多方计算)、深度神经网络(DNN)
QoE(经验回归神经网络的质量Quality of ExperienceRNN Recurrent Neural Network)
TFF(TensorFlow联合学习框架):现有的TensorFlow(简称TF)或Keras模型代码通过一些转换后就可以变为联邦学习模型。甚至可以加载单机版的预训练的模型,以迁移学习的模式应用到分散式数据的机器学习中。
为了促进复杂模型在分布式设备之间的协作学习,引入了一种分散的ML方法,称为联邦学习(FL)。移动设备使用它们的本地数据来协作地训练FL服务器所需的ML模型。后,他们将模型更新(即模型的权重)发送到FL服务器以进行汇总。这些步骤在多轮重复,直到达到理想的精度。这意味着FL可以成为移动边缘网络中ML模型训练的一种启用技术。与传统的云中心模型训练方法相比,在移动边缘网络中实现FL模型训练具有以下优点。
首先,由于模型更新的高维性和参与的移动设备的有限通信带宽,通信成本仍然是一个问题。其次,在一个庞大而复杂的移动边缘网络中,从资源分配的角度来看,参与设备在数据质量,计算能力和参与意愿方面的异质性必须得到很好的管理。第三,最近的研究工作清楚地表明,FL中可能存在恶意参与者,并且可以从共享参数中推断其他参与者的信息。因此,需要考虑FL中的隐私和安全问题。
综上所述,现有的关于FL的调查大多没有考虑到FL在移动边缘网络环境中的应用,而现有的关于MEC的调查没有考虑到FL的实现所面临的挑战,也没有考虑到移动边缘网络优化中潜在的ofFL方法。这促使我们有一个全面的调查,包括:(i)一个关于FL实现的教程(ii) FLand的独特特性及其带来的实现挑战(iii) FL asan实现移动边缘网络优化的技术。为了方便读者,我们将本次调查所涉及的相关研究进行了分类,如图2所示。该分类基于移动边缘网络的(i) FL,即(2)移动边缘网络中mlmodel在终端设备和FL上的协同训练的挑战。的研究,探索使用FL移动边缘网络优化。
大多数现有的FL调查并未考虑FL在移动边缘网络中的应用,而现有的MEC调查却没有考虑FL实施的挑战,也没有考虑FL方法在移动边缘网络优化中的潜力。这促使我们进行全面的调查,涵盖以下内容:
(i)有关FL实现的教程
(ii)FL的独特功能以及随之而来的实施挑战
(iii)FL是一种用于移动边缘网络优化的支持技术。
为了方便读者,我们将本次调查所涉及的相关研究进行了分类,如图2所示。该分类基于(i)移动边缘网络上的FL,即专注于在终端设备上实施ML模型的协作训练的挑战的研究,以及(ii)移动边缘网络上的FL,即探索将FL用于移动端的研究 边缘网络优化。
在传统的深度神经网络(DNN)训练中,采用了一种基于云的方法,从而可以对数据进行集中并且在强大的云服务器中进行模型训练。
FLtraining过程有两个步骤,即(i)局部模型训练和(ii)更新参数的全局汇总。
虽然FL通常可以应用于ML模型的训练,但出于两个原因,我们在本节中专门关注DNN模型训练。
首先,FL在移动边缘网络的实现可以很自然地利用分布式终端设备所收集的不断增长的计算能力和数据量,这两者都是DL兴起的驱动力。
其次,我们回顾的大多数论文都集中在DNN模型的联合训练上。因此,简要介绍一般的DNN模型训练将用于后面的章节。在此之后,我们开始提供一份包含全球培训和本地培训的FL培训计划。此外,我们还强调了FL模型训练的统计挑战,并介绍了FL的协议和开源框架。
传统的机器学习算法依靠手工设计的特征提取器来处理原始数据。因此,领域专业知识通常是构建有效ML模型的先决条件。此外,必须针对每个新问题自定义并重新启动功能选择。另一方面,DNN是基于表示学习的,即DNN可以自动从原始数据中发现并学习这些特征[4],因此通常优于传统的ML算法,尤其是在数据量很大的情况下。DL属于大脑启发式计算范式的领域,其中神经网络是其中的重要部分[45]。通常,神经网络设计模仿神经元的设计[46]。它包括三层:(i)输入层,(ii)隐藏层和(iii)输出层。在前馈神经网络中,经过加权和偏差校正的输入值通过非线性激活函数传递,以得出输出[47](图3)。一些激活功能包括ReLu和softmax功能[42]。典型的DNN包含将输入映射到输出的多个隐藏层。例如,为图像分类训练的DNN的目标是[48]生成分数向量作为输出,其中最高分数的位置索引对应于输入图像被归为所属的类别。因此,训练DNN的目的是优化网络权重,以使损失函数(即地面真实情况与模型输出之间的差异)最小化。训练之前,首先将数据集分为训练和推理数据集。然后,将训练数据集用作DNN中权重优化的输入数据。权重通过随机梯度下降(SGD)进行校准,其中权重由以下各项的乘积更新:(i)学习率lr,即权重更新渗透的速度,以及(ii)损失函数L相对于重量w。 SGD公式如下
注意,(1)中给出的SGD公式是一个小批量GD的公式。
其中,(2)为B个批次梯度矩阵的平均梯度矩阵,其中每个批次是由m个训练样本组成的随机子集。这比完整的批量GD更可取,即,其中整个训练集都包含在计算偏导数中,因为完整的批量GD可能会导致慢速训练和批量记忆。
梯度矩阵由输入梯度e(图3)反向传播得到。
然后在许多时间点上重复训练迭代,即,在训练集上完全训练,使损失最小化。一个训练有素的DNN可以很好地泛化,将DNN应用于之前从未见过的数据(例如测试集)时,可以获得很高的推理精度。监督学习还有其他选择,例如半监督学习,无监督学习和强化学习以及为适应各种功能而量身定制的几种DNN架构,例如,多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)。
但是,深入的讨论超出了本文的范围。我们建议感兴趣的读者参考[56]-[61],以深入讨论DNN体系结构和培训。接下来我们重点放在联邦学习,这是朝着实现隐私保护和协作式深度学习模型训练的重要转变。
出于数据隐私保护,FL概念在[21]介绍。{ H. B. McMahan, E. Moore, D. Ramage, and B. A. y Arcas, “Federated learning of deep networks using model averaging,” 2016.}
联邦学习允许用户在设备上保存个人数据的同时协同训练共享模型,从而减轻了他们的隐私问题。因此,联邦学习可以作为在移动边缘网络上进行机器学习模型训练的一种使能技术。
通常,FL系统中有两个主要实体,
即数据所有者(即参与者)和模型所有者(即FL服务器)。
1.令N = {1,。 。 。 ,N}表示N个数据所有者的集合,每个数据所有者都有一个私有数据集Di∈N。
2.每个数据所有者i都使用其数据集Di来训练局部模型wi,并且仅将局部模型参数发送到联邦学习服务器。
3.然后,将所有收集的局部模型合计为w =∪i∈Nwi以生成全局模型Wg。
这与传统的集中式训练不同,传统的集中式训练使用D =∪i∈NDi来训练模型wT,即来自每个单独来源的数据被汇总和集中处理。
FL系统的典型架构和培训过程如图4所示。
在这个系统中,数据所有者充当联邦学习参与者,共同训练聚合服务器所需的机器学习模型。一个基本的假设是数据所有者是诚实的,这意味着他们使用真实的私有数据来进行培训,并将真实的本地模型提交给fl服务器。当然,这种假设可能并不总是现实的[62],我们随后在第四节和第五节中讨论了建议的解决方案。
通常,FL培训过程包括以下三个步骤。
本地模型是指在每个参与设备上训练的模型,而全局模型是指联邦学习服务器聚合的模型
请注意,联邦学习训练过程可以用于不同的机器学习模型,这些模型本质上使用SGD方法,如支持向量机(SVMs)、神经网络和线性回归。
一个训练数据集通常包含一组n个数据特征向量x = {x1,…, xn}和一组对应的数据标签y = {y1,…,yn}。此外,让yˆj = f (Xj; w)数据向量Xj更新/训练后模型w的预测结果。
表二总结了常用ML模型的几种损失函数。
全局模型聚合是fl的一个重要组成部分,文献[23]提出的fedavg算法是一种简单而经典的局部模型聚合算法,它基于算法1给出的sgd。
如上步骤1所述,服务器首先初始化任务(第11-16行)。
此后,在步骤2中,参与者i实现本地培训,并在(3)中优化来自原始本地数据集(第2-8行)的小批量目标。小批量指的是每个参与者数据集的随机子集
在tth迭代(第17行)中,服务器通过平均聚合
(形式上定义为)
迭代联邦学习训练过程直到全局损失函数收敛,或达到理想的精度。
在上一节详细介绍了FL培训过程之后,我们现在开始讨论FL面临的统计挑战。
在传统的分布式ml中,中心服务器可以访问整个训练数据集。因此,服务器可以将数据集拆分为遵循类似分布的子集。这些子集随后被发送到参与节点进行分布式训练。但是,这种方法对于fl是不实际的,因为本地数据集只能由数据所有者访问。
在FL设置中,参与者可能具有遵循不同分布的本地数据集,即,参与者的数据集是非IID的。
尽管[23]中的作者表明,即使参与者之间的数据不是IID,上述FedAvg算法也能够达到理想的准确性,但[66]中的作者却发现并非如此。例如,FedAvg训练的CNN模型的准确性比CIFAR-10的中央训练的CNN模型低51%[67]。
这种准确性的下降进一步被证明是由地球移动者的距离(emd)来量化的[68],即fl参与者的数据分布与人口分布的差异。
因此,当数据是非iid且高度倾斜时,提出了一种数据共享方法,即fl服务器向每个fl参与者发送一个在所有类中均匀分布的共享数据集。然后,参与者将其私有数据与接收到的数据一起训练其本地模型。仿真结果表明,由于减少了EMD,使用5%的共享数据可以将精度提高30%。 但是,公共数据集可能并不总是可用于FL服务器共享。 随后在第四节中讨论了替代解决方案。
[69]中的作者还发现,全局不平衡,即所有FL参与者之间保存的数据收集在类别上不平衡的情况,也导致模型准确性下降。因此,提出了Astraea框架。
初始化时,fl参与者首先将其数据分发发送到fl服务器。在训练开始之前,引入了平衡步骤,在该步骤中,每个参与者通过随机轮换和移位等方式,少数类上进行数据扩充[70]。在对扩充数据进行训练之后,即创建中介器以协调中间聚合,即,在将更新的参数发送到FL服务器进行全局聚合之前。中介选择具有数据分布的参与者,这些数据分布在聚合时最有助于均匀分布。这是通过一种贪婪算法来实现的,该算法最小化局部数据和均匀分布之间的Kullback-Leibler散度[71]。仿真结果表明,在不平衡数据集上进行测试时,其精度有所提高。
每个参与者设备上的数据还可以通过其他方式异构,例如,参与者之间拥有的训练数据的数量可以不同。[72]中的作者提出了针对每个参与者的独立但结构相关的学习模型。因此,多任务学习[73]中的概念自然可以被用来建立这种关系的模型。与之前表二所示的传统损失函数最小化不同,对损失函数进行了修改,以建立任务之间的关系模型。然后,提出了mocha算法,其中使用交替优化方法[74]来近似求解最小化问题。有趣的是,mocha可以根据参与设备的资源限制进行校准。例如,可以根据参与设备的网络条件和cpu状态自适应地调整近似质量。然而,mocha不能应用于非凸dl模型。
除了数据异构性外,分布式学习算法的收敛性一直是人们关注的问题。更高的收敛率有助于为FL参与者节省大量的时间和资源,同时显著提高了联邦训练的成功率,因为更少的交流回合将减少参与者的中途退出。为了保证收敛性,[75]中的研究提出了FedProx,它修改了损失函数,也包括一个可调参数,限制局部更新对初始模型参数的影响。FedProx算法可以自适应调整,例如,当训练损耗增加时,可以调整模型更新以减少对当前参数的影响。类似地,[76]的作者还提出了LoAdaBoost FedAvg算法来补充前面提到的ML中关于医疗数据的数据共享方法[66]。在LoAdaBoost FedAvg中,参与者根据本地数据对模型进行训练,并将交叉损耗与前一轮训练的中值损耗进行比较。如果当前的交叉熵损失较大,则在全局聚集之前对模型进行再训练,以提高学习效率。仿真结果表明,该算法具有较快的收敛速度。
事实上,fl的统计挑战与我们在后续章节中探讨的其他问题并存。例如,在fl中产生的通信成本可以通过更快的收敛来降低。同样,资源分配策略也可以设计为解决统计异构性。因此,我们随后会更详细地回顾这些概念。
为了提高可扩展性,文[77]从系统层面提出了一种fl协议。本协议涉及不稳定设备连接和通信安全等问题。FL协议(图5)包括三个阶段
训练回合:
此外,为了根据不同的FL人口规模管理设备连接,还建议进行速度控制。速度控制自适应地管理参与者重新连接到FL服务器的最佳时间窗口[77] (当fl数量较少时,使用速度控制来确保有足够数量的参与设备同时连接到服务器。相反,当有大量用户时,速度控制随机选择要参与的设备,以防止在一个时间点连接过多参与设备的情况)
除了通信效率外,本地更新传输过程中的通信安全也是一个有待解决的问题。具体来说,通信安全主要有两个方面:
有关隐私和安全的这些概念将在第五部分中详细介绍。最近,针对FL的一些开源框架已经开发如下:
除了我们在第II-C节中提出的统计挑战外,与其他分布式ML方法相比,FL具有一些独特的特征和特点[87]:
fl的这些独特特性导致了fl实现中的几个实际问题,我们现在主要从三个方面进行讨论,即i)通信成本 ii)资源分配和 iii)隐私和安全
在下面的部分中,我们将回顾解决这些问题的相关工作。
在fl中,可能需要参与者和fl服务器之间的多轮通信来实现目标精度(图5)。
对于复杂的dl模型训练,例如cnn,每次更新可能包含数百万个参数[89]。更新的高维性会导致高通信成本的产生,并可能导致培训瓶颈。
此外,由于(i)参与设备的不可靠网络条件[90]和(ii)上传速度快于下载速度的互联网连接速度的不对称,导致参与者的模型上传延迟[88],瓶颈可能恶化
因此,需要提高fl的通信效率。考虑以下方法来降低通信成本:
边缘和末端计算:在FL设置中,通信成本通常主导计算成本[23]。
原因在于,设备上的数据集相对较小,而参与者的移动设备具有越来越快的处理器。另一方面,只有当参与者连接到Wi-Fi时,他们才可能愿意参加模型训练[88]。
因此,在每次全局聚合之前,可以在边缘节点或终端设备上执行更多的计算,以减少模型训练所需的通信轮数。
另外,确保更快收敛的方法还可以减少所涉及的通信回合次数,但以在边缘服务器和终端设备上进行更多计算为代价。
模型压缩:这是分布式学习中常用的一种技术[91]。 模型压缩涉及模型更新的通信,例如通过稀疏化,量化或二次采样将模型更新转换为更紧凑的格式[92]。 但是,由于压缩可能会引入噪声
因此目的是在保持训练模型的质量的同时,减小每次通信过程中传输的更新的大小[93]
基于重要性的更新:该策略涉及选择性通信,使得在每一通信回合中仅传输重要的或相关的更新[94]。
图6:在边缘和终端设备上增加计算量的方法包括
(a)在终端设备上增加计算量,例如,在通信之前传递更多数据集。
(b)以全局模型为参考的双流训练
(c)中间边缘服务器聚合
为了减少通信回合的数量,可以在每次全局聚合迭代之前在参与的终端设备上执行额外计算(图6(a))。
[23]中的作者考虑了两种增加参与设备上计算的方法:(i)增加并行性,在这种并行性中,每轮训练选择更多的参与者参与;(ii)增加每个参与者的计算量,从而使每个参与者在进行全局聚合的通信之前执行更多的本地更新。
比较了FederatedSGD (FedSGD)算法和FedAvg算法。对于FedSGD算法,所有的参与者都参与其中,并且每个训练轮只通过一次,其中的小批处理大小包含了参与者的整个数据集。这类似于集中式DL框架中的全批训练。
对于所提出的FedAvg算法,对超参数进行调整,使得参与者可以执行更多的局部计算。如,参与者可以在其数据集上进行更多遍或使用较小的局部小批量来增加每次通信回合之前的计算量。模拟结果表明,一旦达到一定的阈值,增加并行度并不会显著降低通信成本。
因此,重点应该在增加每个参与者的计算量,同时保持所选参与者的比例不变。对于MNIST CNN仿真,在数据集为IID的情况下,使用所提出的FedAvg算法增加计算量可以减少通信轮数30倍以上。对于非iid数据集,使用相同超参数的改进不太显著(2.8倍)。然而,对于长短时记忆(LSTM)仿真[95],即使是非iid数据(95.3倍)的改进也更为显著。此外,FedAvg最终提高了精度,因为模型平均产生的正则化效果类似于随机失活(dropout)[96],可以防止过拟合。
降低通信成本的一种方法还可以是通过修改训练算法以提高收敛速度,例如通过上述[76]中的LoAdaBoost FedAvg。同样,[97]中的作者还提出了通过采用迁移学习和领域适应中常用的两流模型(图6(b))来增加每个参与设备的计算量[99]。
在每一轮培训中,参与者都会收到全局模型,并将其固定为培训过程中的参考。在培训期间,参与者不仅从本地数据中学习,而且还从其他参与者那里学习到固定的全局模型。
这是通过将最大平均差异(MMD)合并到损失函数中来完成的(MMD测量两个数据分布平均值之间的距离)
通过最小化局部模型和计算全局模型之间的mmd损失,参与者可以从全局模型中提取更多的广义特征,从而加速训练过程的收敛性,以减少通信次数。
分别使用诸如AlexNet和2-CNN之类的DL模型在CIFAR-10和MNIST数据集上的仿真结果表明,即使数据为非IID,所提出的两流FL也可以在少20%的通信回合中达到理想的测试精度。
然而,在提高收敛速度的同时,对于上述方法,终端设备必须消耗更多的计算资源。因此,这就需要优化资源分配,我们随后将在第四节中讨论。
尽管上述研究考虑了在参与设备上增加计算量,但[98]中的作者提出,假设 从参与者到边缘服务器的传播延迟 <参与者到服务器通信的传播延迟,则邻近的边缘服务器可以充当中间参数聚合器。 图6(c))。
提出了一种层次化的FL (HierFAVG) 算法:每几次本地参与者更新后,边缘服务器将收集到的本地模型聚合起来。在预定义数量的边缘服务器聚合之后,边缘服务器将与云通信以进行全局模型聚合。这样,参与者和云之间的通信仅在多个本地更新间隔之后才发生一次。相比之下,对于[23]中提出的fedavg算法,由于不涉及中间边缘服务器聚合,因此全局聚合发生的频率更高。
模拟结果表明:在两个全局聚集之间进行相同数量的局部更新时,与fedavg算法相比,在每次全局聚集之前进行更多的中间边缘聚集可以减少通信开销。这个结果适用于IID和非IID数据,这意味着可以在FEDAVG的基础上实现边缘服务器上的中间聚合,从而降低通信成本。
但是,当将其应用于非IID数据时,模拟结果表明,在某些情况下(例如,当边缘云差异很大或涉及许多边缘服务器时),HierFAVG无法收敛到所需的准确度水平(90%)。因此,需要进一步研究以更好地理解调整本地和边缘聚合间隔之间的折衷,以确保可以最佳地校准HierFAVG算法的参数以适合其他设置。然而,HierFAVG是在移动边缘网络上实现fl的一种很有前途的方法,因为它利用了中间边缘服务器的邻近性来降低通信成本,并可能减轻远程云的负担。
为了降低通信成本,[88]中的作者提出了结构化和草图化的更新,以减少在每个通信回合中从参与者发送到服务器的模型更新的大小。 结构化更新将参与者更新限制为具有预先指定的结构,即低等级和随机掩码。 对于低秩结构,每个更新都被强制为一个低秩矩阵,表示为两个矩阵的乘积。在这里,一个矩阵是随机生成的,并且在每个通信回合中保持不变,而另一个是优化的。因此,只需要将优化的矩阵发送到服务器。对于随机掩码结构,每一个参与者更新被限制为一个稀疏矩阵, 对于随机掩码结构,每个参与者更新被限制为遵循在每个回合期间独立生成的预定义随机稀疏模式的稀疏矩阵。 因此,只需要将非零项发送到服务器。
另一方面,草图更新是指在与服务器通信之前以压缩形式对更新进行编码的方法,该方法随后在聚合之前对更新进行解码。草图更新的一个例子是子采样:其中每个参与者仅交流更新矩阵的随机子集。然后,服务器对子采样更新进行平均,以得出真实平均值的无偏估计。草图更新的另一个例子是概率量化:其中更新矩阵对每个标量进行矢量化和量化。为了减少量化误差,可以在量化之前应用walsh-hadamard矩阵和二元对角矩阵的乘积的结构化随机旋转。
在cifar-10图像分类任务上的仿真结果表明,对于结构化更新,随机掩码的性能优于低秩方法。随机掩码方法也比草图方法获得更高的精度,因为后者涉及删除一些在训练过程中获得的信息。然而,这三种绘制工具的结合,即子采样、量化和旋转,可以获得更高的压缩率和更快的收敛速度,尽管在精度上有所牺牲。
此外,当每轮训练的参与者更多时,草图更新可以在训练中获得更高的精度。
例如,使用2位进行量化并绘制出除6.25%之外的所有更新数据,代表更新所需的比特数可减少256倍,达到的精度水平为85%。
这表明,对于实际实施的fl,在有很多参与者的情况下,每轮可以选择更多的参与者进行培训,这样子采样可以更积极地降低通信成本。
[93]中的作者在[88]的研究基础上进行了扩展,提出了有损压缩和联邦退出以减少服务器到参与者的通信成本。
图7:(i)联邦退出以减少模型的大小(ii)模型的有损压缩(iii)用于训练的解压(iv)压缩参与者更新(v)解压(vi)全局聚合
根据作者在图7中的工作,对所提出的技术进行了总结。对于我们前面讨论过的模型参数的参与方到服务器的通信,可以在多次更新中对解压进行平均以获得一个无偏的估计。
但是,由于服务器与参与者之间的通信没有平均值,因为在每轮通信中都会向所有参与者发送相同的全局模型。 与[88]相似,考虑了二次采样和概率量化。对于在子采样和量化之前进行结构化随机旋转的应用,使用Kashin的表示方法代替Hadamard变换方法,因为后者在精度-尺寸权衡方面表现更好。
除了子采样和量化方法外,还考虑了联邦退出方法,其中删除了每个完全连接层的固定数量的激活函数,以得出较小的子模型。然后将子模型发送给参与者进行培训。 然后可以将更新后的子模型映射回全局模型,以导出完整的DNN模型,并在后续聚合过程中更新所有权重。这种方法减少了服务器到参与者的通信成本,也减少了参与者到服务器更新的大小。
此外,由于需要更新的参数较少,因此减少了局部计算。对MNIST,CIFAR-10和EMNIST [104]数据集进行了模拟。
对于有损压缩,[88]表明采用的二次采样方法未达到可接受的性能水平。原因是:对于参与者到服务器的上载,更新错误可以平均化,但对于服务器到参与者的下载,则不能平均化。
另一方面,使用Kashin的Representation进行量化可以在不压缩的情况下达到与基线相同的性能,而当模型量化为4位时,通信成本降低了近8倍。
对于联邦丢失率法,结果表明,25%的全连接层权矩阵丢失率(或CNN的过滤器)在大多数情况下都能达到可接受的准确性,同时保证了通信模型大小减少43%左右。然而,如果丢失率越高,模型的收敛速度就越慢。
前面的两项研究提出了有用的模型压缩方法,可以减少服务器到参与者和参与者到服务器的通信成本。 正如人们可能期望的那样,通信成本的降低伴随着模型准确性的牺牲。因此,对压缩精度的权衡进行形式化将非常有用,特别是当不同的任务或不同数量的FL参与者参与时。
基于观察到DNN的大多数权重值分布稀疏且接近零[105],[94]中的作者提出了边缘随机梯度下降(eSGD)算法:仅选择要传递的重要梯度的一小部分。 在每个通信回合中将其发送到FL服务器以更新参数。eSGD算法在两个连续的训练迭代中跟踪损失值。如果当前迭代的损失值小于前一次迭代,这意味着当前训练梯度和模型参数对于训练损失最小化是重要的,因此,它们各自的隐藏权重被赋予正值。
此外,梯度还被传送到服务器以进行参数更新。一旦不成立,即,与前一次迭代相比损失增加,则根据其他参数的隐藏权重值选择要更新的其他参数。隐藏权重值越大的参数越容易被选择,因为它在训练过程中多次被标记为重要参数。
为了解决小的梯度值,如果它们被忽略并且没有完全更新,会延迟收敛[106],则将这些梯度值累积为残差值。由于残差可能来自不同的训练迭代,因此使用动量校正技术使用残差因子对残差的每个更新进行加权[107]。当累积残差梯度达到阈值时,根据隐藏的权值选择它们来代替最不重要的梯度坐标。
模拟结果表明:与[105]提出的阈值sgd算法相比,下降率为50%的esgd算法可以获得更高的精度,该算法使用固定的阈值来确定下降的梯度坐标。esgd还可以节省很大比例的梯度大小。然而,与标准sgd方法相比,esgd仍然存在精度损失。例如,当使用mnist数据集对简单分类任务进行测试时,模型精度收敛到91.22%,而标准sgd可以达到99.77%的精度。如果扩展到更复杂的任务,精度可能会在更大程度上恶化。
此外,esgd方法的精度和收敛速度 会因为使用的超参数(如小批量)而任意波动。因此,必须进行进一步的研究,以正式平衡沟通成本和培训绩效之间的权衡。
与[94]相似,[90]的作者提出了通信缓解联合学习算法(CMFL),该算法仅上传相关的本地更新以降低通信成本,同时又保证了全局收敛。在每次迭代中,参与者的本地更新首先与全局更新进行比较,以确定更新是否相关。当得分等于本地和全局更新中相同符号参数的百分比时,计算相关性得分。
实际上,全局更新在聚合之前是未知的。根据经验,发现在MNIST CNN和Next-WordPrediction LSTM中两次连续全局更新的归一化差异的99%以上都小于0.05,因此将 先前迭代中进行的全局更新 用作比较的估计值。
如果更新的相关性得分小于预定义的阈值,则认为该更新不相关。
模拟结果表明,与基准FedAvg算法相比,cmfl对MNIST-CNN和Next-Word-Prediction LSTM的准确率分别为3.47倍和13.97倍。此外,对Gaia相比,CMFL可以节省更多的通信回合。注意,Gaia是一种基于地理分布的ML方法,它根据更新的大小而不是参数的符号来度量相关性。当与上述MOCHA算法II-C一起使用时[72],CMFL可以将人类活动识别数据集的通信回合减少5.7倍,将Semeion手写数字数据集的通信回合减少3.3倍[110]。此外,CMFL可以获得稍高的精度,因为它涉及到消除不相关的更新,这些更新是异常值,会损害训练。
在本节中,我们回顾了三种主要的降低FL通信成本的方法,并针对每种方法,讨论了在不同研究中提出的解决方案。我们总结了这些方法以及表三中的参考文献。在大规模实施fl之前,通信成本是一个需要解决的关键问题。在我们之前的讨论中,我们注意到许多降低通信成本的方法在其他方面都有牺牲,例如,模型精度的下降和终端设备上计算量的增加。因此,为了成功地降低通信成本,必须妥善管理此折衷。此外,参与设备也有其他资源限制,可能会影响培训效率。特别是,fl涉及具有不同资源约束的异构和分布式设备。因此,我们现在开始在下一节审查资源分配问题。
涉及具有不同数据集质量、计算能力、能量状态和参与意愿的异构设备的参与。给定设备异构性和资源约束,即,在设备能量状态和通信带宽下,必须优化资源分配,使训练过程的效率最大化。特别是需要考虑以下资源分配问题:
为了缓解训练瓶颈,[78]的作者提出了一种新的FL协议,称为FedCS。本协议如图8所示。
图8:FedCS和Hybrid-FL协议下的参与者选择。
步骤1:资源请求
步骤2:意愿设备报告每个类别和渠道/计算条件的数据量
步骤3:服务器选择客户端进行培训和数据更新
步骤4:服务器使用本地训练的模型和收集的数据更新全局模型
该系统模型是一个MEC框架,其中MEC的操作员是FL服务器,该服务器协调蜂窝网络中的训练,该蜂窝网络包括具有异构资源的参与移动设备。因此,FL服务器首先执行一个资源请求步骤,从随机选择的参与者子集收集无线信道状态和计算能力等信息。根据这些信息,MEC操作人员为后续的全局聚合阶段选择能够在预先指定的截止日期内完成培训的最大参与者数量。通过在每一轮中选择尽可能多的参与者,训练的准确性和效率得以保持。
为了解决最大化问题,提出了贪心算法[112],即,迭代地选择花费最少时间进行模型上传和更新的参与者进行培训。模拟结果表明,与只考虑训练截止时间而不进行参与者选择的FL协议相比,FedCS能够使更多的参与者参与到[23]的每一轮训练中,从而实现更高的准确性。
但是,FedCS仅在简单的DNN模型上进行了测试。 当扩展到更复杂的模型的训练时,可能难以估计应选择多少参与者。例如,对于复杂模型的训练可能需要更多的训练回合,并且考虑到一些参与者在训练期间可能会退出,选择太少的参与者可能会导致表现不佳。此外,倾向于选择拥有更好计算能力的设备的参与者。这些参与者可能没有保存代表人口分布的数据。 特别是,我们随后将在本节中回顾公平问题[113]。
FedCS解决了FL参与者之间资源的异质性,而[114]中的作者将FedCS协议扩展为处理参与者之间数据分布差异的Hybrid-FL协议。参加FL的参与者数据集可能是非IID的,因为它反映了每个用户的特定特征。 正如我们在第II-C节中讨论的那样,非IID数据集可能会大大降低FedAvg算法的性能[66]。解决数据集的非iid性质的一个建议措施是将公开可用的数据分发给参与者,这样可以减少他们的设备数据集和总体距离之间的EMD。但是,这样的数据集可能并不总是存在,而且出于安全原因,参与者可能不会下载它们。
因此,另一种解决方案是使用有限数量的隐私不敏感参与者的输入来构建一个近似IID的数据集[114]。在Hybrid-FL协议中,在资源请求步骤(图8)中,MEC操作员询问随机参与者是否允许上传他们的数据。
在参与者选择阶段,除了根据计算能力选择参与者外,还要选择参与者,使其上传的数据可以在服务器中形成近似IID的数据集,即,每个类中收集到的数据量接近(图8)。然后,服务器在收集的IID数据集上训练一个模型,并将该模型与参与者训练的全局模型合并。
模拟结果表明:即使只有1%的参与者共享数据,与未上传数据的FedCS基准相比,非iid数据的分类精度也有显著提高。但是,推荐的协议可能会侵犯用户的隐私和安全,特别是当FL服务器是恶意的。在参与者有恶意的情况下,可以在上传之前伪造数据,我们将在第五节进一步讨论。
因此,参与者不太可能自愿上传数据,因为他们可以搭其他志愿者的便车。在可行性方面,需要一个设计良好的激励和声誉机制,以确保只有值得信任的参与者才能上传他们的数据。
一般情况下,所实现FL的移动边缘网络环境是动态的、不确定的,具有可变的约束条件,如无线网络和能量条件。因此,这可能导致培训瓶颈。为此,Q-深度学习( DQL)可用于优化模型训练的资源分配,如[115]所述。该系统模型是一个移动人群机器学习设置(MCML),它使移动人群网络中的参与者能够协作地训练FL服务器所需的DNN模型。参与的移动设备受到能量、CPU和无线带宽的限制。
因此,服务器需要确定移动设备用于培训的适当数量的数据、能源和CPU资源,以最小化能源消耗和培训时间。在移动环境的不确定性下,建立了一个随机优化问题。在该问题中,服务器是代理,状态空间包括移动设备的cpu和能量状态,动作空间包括从移动设备获取的数据单元和能量单元的数量。
为了达到目标,奖励函数被定义为累积数据、能量消耗和训练延迟的函数。
为了克服服务器的大状态和动作空间问题,采用了基于双深度Q网络(DDQN)[116]的DQL技术来解决服务器的问题。
模拟结果表明:与贪婪算法相比,DQL方案能减少31%左右的能量消耗,与随机方案相比,训练延迟减少55%左右。然而,该方案仅适用于参与移动设备较少的联邦。
作为扩展,可以考虑DQL方法在大型联合中的可伸缩性。
上述资源分配方法的重点是提高FL的训练效率,但这可能会导致资源分配的不公平,这是无线网络资源分配中经常探讨的问题[117]和ML[118]。
例如,如果参与者选择协议选择计算能力较强的移动设备参加每一轮训练[78],则计算能力较强的设备的参与者所拥有的数据分布会过多地代表FL模型。因此,[113]和[119]的作者认为公平是FL的一个附加目标。[119]将公平定义为一个FL模型在不同参与者之间的表现差异。如果测试精度的方差很大,这意味着存在更多的偏差或更少的公平性,因为所学习的模型对某些参与者可能是高度准确的,而对其他代表性不足的参与者可能不是这样。
文献[119]提出了联邦q-公平 (q-FFL)算法,对FedAvg中的目标函数进行重新加权,将损失函数中较高的权重分配给损耗较大的设备。实际上,这是文献[113]中提出的不可知FL (AFL)算法的推广,其中损耗最大的设备控制整个损耗函数。
模拟结果表明:所提出的q-FFL算法与AFL算法相比,具有较低的检测精度方差和较快的收敛速度
然而,正如预期的那样,对于一些q-FFL算法的校准,由于散兵可能会延迟训练过程,因此收敛速度可能会变慢。因此,可以考虑将异步聚合方法(在本节中稍后讨论)用于q-FFL算法。
虽然现有的研究大多考虑使用正交频分多址(OFDMA)等正交接入方案[120],但在[121]中,作者提出了一种多址宽带模拟聚集(BAA)设计来降低FL中的通信延迟。BAA方案不是在服务器的全局聚合期间分别执行通信和计算,而是基于空中计算的概念[122],通过利用多址信道的信号叠加特性来集成计算和通信。提出的BAA方案允许复用整个带宽(图9(a)),而OFDMA使带宽分配正交化(图9(b))。
图9:(A) BAA复用带宽(上)与(b) OFDMA(下)的空中计算比较[121]。
因此,**对于正交访问方案,通信延迟与参与者的数量成正比,而对于多访问方案,延迟与参与者的数量无关。**在BAA传输过程中,信号噪声比(SNR)的瓶颈是距离传输距离最长的参与设备,因为距离较近的设备必须降低其传输功率才能与距离较远的设备进行幅度对准。为了提高信噪比,必须放弃传播距离较长的参与者。但是,这会导致模型参数的截断。
因此,为了管理snr截断权衡,我们考虑了三种调度方案:1)单元内部调度(cell-interior):超出距离阈值的参与者不被调度;2)全包调度(all-inclusive scheme):所有参与者都被考虑;3)交替调度:边缘服务器在上述两种方案之间进行交替调度。
模拟结果表明:提出的BAA方案可以达到与OFDMA方案相近的测试精度,同时延迟降低了10倍至1000倍。三种调度方案的比较下,
由于在参与者位置变化迅速的高移动性网络中,单元内部调度方案的测试精度优于全包调度方案;对于低迁移率网络,交替调度方案的性能优于单元内部调度。
作为扩展,[123]的作者在空中计算之外还引入了误差积累和梯度稀疏化。
在[121]中,由于功率限制而没有传输的梯度向量被完全丢弃。为了提高模型精度,可以先将未传输的梯度向量存储在误差累积向量中。在下一轮中,使用误差向量修正局部梯度估计。此外,当存在带宽限制时,参与设备可以应用梯度稀疏化,只保留最高量级的元素进行传输。未传输的元素随后被添加到误差累积向量中,以便在下一轮中进行梯度估计校正。
模拟结果表明:该算法利用误差积累向量修正了梯度估计,提高了带宽的利用率,在不增加误差积累和梯度稀疏的情况下,可以获得比空中计算更高的测试精度。
与[121]和[123]相似,[124]中的作者提出了通过空中计算将计算和通信整合在一起的方法。然而,可以观察到,由于信号失真,在空中计算过程中产生的聚集误差会导致模型精度下降[125]。因此,我们提出了一种选择训练设备数量最大化的参与者选择算法,以提高统计学习性能[23],同时将信号失真保持在阈值以下。
由于均方误差(MSE)约束的非凸性[126]和优化问题的难处理性,提出了一种差分凸函数(DC)算法[127]来解决最大化问题。
模拟结果表明:该算法具有良好的可扩展性,其性能接近全局最优。与其他最先进的方法(例如,[128]中提出的半定性松弛技术(SDR))相比,所提出的DC算法还可以选择更多的参与者,从而实现更高的模型精度。
所提出的FedAvg算法同步聚集参数如图10(a)所示,因此容易受到straggler效应的影响,即,每一轮训练的进展速度与最慢的设备一样快,因为FL服务器会等待所有设备完成本地训练,然后才能进行全局聚合[111]。
Fig. 10: 同步fl和异步fl之间的比较。
因此,为了提高FL的可扩展性和效率,提出了异步模型。对于异步FL,每当服务器接收到本地更新时,就更新全局模型(图10(b))。在[111]中的作者根据经验发现,异步方法对于在培训轮次以及联盟涉及具有异构处理能力的参与设备时中途加入的参与者具有鲁棒性。然而,当数据非iid且不平衡时,模型的收敛速度明显滞后。
作为改进,[129]提出了FedAsync算法,在该算法中,每个新接收的本地更新根据时效性自适应加权,时效性定义为当前历元与所接收更新所属迭代的差值。例如,例如,来自散兵的陈旧更新已经过时,因为它应该在以前的训练回合中收到。因此,它的权重更小。
此外,本文还证明了一类受限非凸问题的收敛性保证(the convergence guarantee for a restricted family of non-convex problems.)然而,FedAsync算法的当前超参数仍然需要进行调整,以确保在不同的设置下收敛。
因此,该算法仍然无法推广以适应异构设备的动态计算约束。
事实上,考虑到异步FL的可靠性存在不确定性,同步FL仍然是目前最常用的方法[77]。
对于大多数现有的FEDAVG算法的实现,全局聚合阶段发生在固定数量的训练回合之后。
为了更好地管理动态资源约束,[65]中的作者提出了一种自适应的全局聚合方案,该方案改变了全局聚合频率,从而在保证FL训练过程中有效利用可用资源(如能量)的同时,保证模型性能。在[65]中,MEC系统模型由(i)局部更新阶段(使用局部数据对模型进行训练)、(ii)边缘聚合阶段(发生中间聚合)和(iii)全局聚合阶段(FL服务器接收并聚合更新后的模型参数)组成。
特别地,作者研究了当边缘服务器聚合总数和全局聚合间隔之间的本地更新总数不同时,训练损失是如何受到影响的。
为此,首先导出了非iid数据梯度下降的收敛界。然后,提出了一种基于最新系统状态自适应选择最优全局聚合频率的控制算法。例如,如果全局聚合太耗时,那么在启动与FL服务器的通信之前,会发生更多的边缘聚合。
模拟结果表明:在相同的时间预算下,自适应聚合方案在损失函数最小化和精度方面都优于固定聚合方案。然而,自适应聚合方案的收敛保证目前只考虑凸损失函数。
在[130]中,作者提出了一种服务定价方案,在该方案中,参与者充当模型所有者的培训服务提供者。此外,为了克服模型更新传递过程中的能量低效问题,提出了一种支持模型更新传递和交易的协同中继网络。
参与者与模型所有者之间的交互被建模为Stackelberg博弈[131],其中模型所有者为买方,参与者为卖方。提出了Stackelberg博弈,其中每个理性参与者可以对其自身的利润最大化价格进行非合作性决策。
在低层子博弈中,模型所有者考虑模型的学习精度与训练数据大小之间的凹关系,通过确定训练数据的大小来实现利润最大化。
在上层子博弈中,参与者决定每单位数据的价格以最大化他们的个人利润。
模拟结果表明:该机制能够保证Stackelberg均衡的唯一性。例如,包含有价值信息的模型更新在Stackelberg均衡中定价更高。此外,模型更新可以协同转移,从而减少通信中的拥塞,提高能源效率。然而,模拟环境涉及的移动设备相对较少。
与[130]相似,[132]中的作者也将参与者与模型所有者之间的交互建模为Stackelberg博弈。然而,在这种情况下,参与者被鼓励分配更多的计算能力进行训练。
在较低级别的子博弈中,参与者通过选择CPU功耗来最大化其效用。
在上层子博弈中,模型所有者通过选择每单位参与者cpu功率的最优补偿来最小化成本。
然后通过反向归纳法求解平衡解。
模拟结果表明:当模型所有者的预算增加时,激励机制可以减少训练延迟,因为激励参与者投入更多的CPU资源来进行更快的训练。
与[130]和[132]相比,[133]中的作者提出了一种使用契约理论[134]方法的激励设计,以吸引具有高质量FL数据的参与者。精心设计的契约可以通过自我揭示机制减少信息不对称,在这种机制中,参与者只选择专门为其类型设计的契约。
为了可行性,每个合同必须满足个人理性(IR)和激励相容(IC)约束。
对于IR,当参与者参与联盟时,每个参与者都被保证有积极的效用。
对于IC,每个效用最大化的参与者只选择为其类型设计的契约。
模型所有者的目标是在IR和IC约束下最大化自己的利润。
如图11所示,导出的最优契约是自揭示的,使得具有较高数据质量的每个高类型参与者仅选择针对其类型设计的契约,而具有较低数据质量的每个低类型参与者不具有模仿高类型参与者的激励。
图11:具有未知资源约束的参与者只有在选择最能反映其约束的bundle时,才能使其效用最大化。
模拟结果表明:所有类型的参与者只有在选择与自己的类型匹配的契约时,才能获得最大的效用。此外,与基于Stackelberg博弈的激励机制相比,本文提出的契约理论方法在模型所有者的利润方面也有更好的表现。这是因为在合同理论方法下,模型所有者可以从参与者身上获取更多利润,而在Stackelberg博弈方法下,参与者可以优化各自的效用。
[133]的作者进一步引入声誉作为衡量FL参与者可靠性的指标,设计了基于声誉的可靠FL参与者选择方案[62]。在这种情况下,每个参与者的声誉值[135]来自两个来源,(i)来自与FL服务器过去交互的直接声誉意见,(ii)来自其他任务发布者的间接声誉意见,即,其他FL服务器。
间接声誉意见存储在开放访问声誉区块链[136]中,以确保以分散方式进行安全声誉管理。在模型训练之前,参与者选择最适合其数据集准确性和资源条件的契约。然后,FL服务器选择声誉分数大于预先设定的阈值的参与者。FL任务完成后,即,达到了理想的精度,FL服务器更新声誉意见,这些意见随后被存储在声誉区块链中。
模拟结果表明:由于检测到不可靠的工作人员而不选择进行fl训练,该方案能显著提高fl模型的准确性。
摘要:在本节中,我们讨论了资源分配中的三个主要问题。表四总结了这些问题和方法。
然而,在第三节和第四节中,我们假设FL保证参与者的隐私和安全。但是,正如我们将在下一节中讨论的那样,这种假设在恶意参与者或FL服务器存在时可能不成立。因此,我们将在下一节讨论隐私和安全问题。
FL的主要目标之一是保护参与者的隐私,参与者只需要共享训练模型的参数,而不需要共享他们的实际数据。然而,最近的一些研究表明,恶意的参与者仍然可以根据他们共享的模型从其他参与者那里推断出敏感信息,例如性别、职业和位置。例如,在[137]中,当在FaceScrub[138]数据集上训练一个二元性别分类器时,作者表明,他们可以通过检查共享模型来推断某个参与者的输入是否包含在数据集中,其准确率高达90%。因此,在本节中,我们将讨论与FL中共享模型相关的隐私问题,并回顾为保护参与者隐私而提出的解决方案。
选择性参数共享模型
本文的一个有趣的结果是,即使参与者不共享所有训练参数,也不更新共享模型中的所有参数,所提出的解决方案的精度仍然接近服务器拥有所有数据集来训练全局模型的情况。例如,对于MNIST数据集[148],当参与者同意共享其10%和1%的参数时,预测模型的准确性分别为99.14%和98.71%,而对于集中式解决方案,当服务器有完整的数据需要训练时,预测模型的准确性为99.17%。然而,这种方法还需要在更复杂的分类任务上进行测试。
GANs是一类利用生成网络和鉴别网络这两种神经网络相互竞争来训练数据的ML技术。生成器网络试图通过向真实数据添加一些“噪声”来生成虚假数据。然后,生成的假数据被传递到鉴别器网络进行分类。在训练过程之后,GANs可以生成与训练数据集相同的统计数据。
受到这个想法的启发,[149]中的作者开发了一种强大的攻击,它允许恶意的参与者从受害者的参与者那里推断出敏感信息,即使只有受害者的一部分共享参数,如图13所示。
为了应对GAN攻击,[151]中的作者介绍了一种基于极端boosting算法的秘密共享方案。这种方法在每轮将新训练的模型以明文形式发送到服务器之前,执行一个轻量级的秘密共享协议。因此,网络中的其他参与者无法从共享模型中推断信息。但是,这种方法的局限性在于依赖可信的第三方来生成签名密钥对。
与前面提到的所有工作不同,[152]中的作者引入了一种协作训练模型,在该模型中,所有参与者协作训练一个联合的GANs模型。该方法的核心思想是联邦GANs模型可以生成代替参与者真实数据的人工数据,从而为诚实的参与者保护真实数据的隐私。
特别是,为了保证参与者的数据隐私,同时又能在训练任务中保持灵活性,这种方法产生了一个联邦生成模型。该模型可以输出不属于任何特定真实用户的人工数据,而是来自于共同的跨用户数据分布。因此,这种方法可以显著降低恶意利用真实数据信息的可能性。但是,这种方法继承了GANs现有的局限性,例如生成的假数据导致训练不稳定,这会极大地降低协作学习模型的性能。
在FL中,参与者对模型进行本地训练,并与其他参与者共享训练参数,以提高预测的准确性。然而,这个过程容易受到各种攻击,例如数据和模型中毒,在这种情况下,恶意的参与者可以发送错误的参数或损坏的模型来伪造全局聚合期间的学习过程。因此,全球模型将更新不正确,整个学习系统会被破坏。本节讨论更多关于FL中出现的攻击的细节,以及处理这些攻击的一些最新对策。
表V:具有MNIST数据集的FL系统中无攻击场景和使用1和2 sybils进行攻击的准确性和攻击成功率[148]。
在表V中,作者表明,在只有两个恶意参与者的情况下,攻击成功率可以达到96.2%,而现在FL模型无法正确地对“1”图像进行分类(相反,它总是错误地预测“7”图像)。
为了减少sybil 的攻击,作者提出了一种防御策略,即傻瓜策略(FoolsGold)。该方法的关键思想是,诚实的参与者可以根据其更新的梯度将其与sybil参与者区分开来。具体来说,在非iid的FL环境中,每个参与者的训练数据都有自己的特殊性,sybil参与者提供比其他诚实参与者更相似的梯度。使用FoolsGold,该系统可以保护SybIL数据中毒攻击,对传统的FL过程进行最小的改变,并且不需要任何外部信息来辅助学习过程。通过对3个不同的数据集(MNIST [148], KDDCup [157], Amazon Reviews[157])的模拟结果,FoolsGold可以在不同的条件下减轻攻击,包括不同的参与者数据分布、不同的中毒目标和不同的攻击策略。
模型中毒攻击:
与数据中毒攻击不同(旨在生成假数据以对全局模型造成不利影响),模型中毒攻击试图直接毒害它发送到服务器进行聚合的全局模型。
[158]和[159]提出,模型中毒攻击要比数据中毒攻击有效得多,特别是对于参与者较多的大规模FL。原因:对于数据中毒攻击,恶意参与者的更新将根据其数据集和联邦中的参与者数量进行缩放。但是,对于模型中毒攻击,恶意的参与者可以直接修改更新后的模型并将其发送到服务器进行聚合。因此,即使只有一个攻击者,整个全局模型也可能被毒害。[158]的模拟结果也证实,即使是训练数据有限且高度受限的对手,在执行模型中毒攻击时也能获得较高的成功率。因此,必须开发保护全局模型免受模型中毒攻击的解决方案。
在[158]中,提出了一些防止模型中毒攻击的解决方案。首先,基于来自参与者的更新模型,服务器可以检查共享模型是否有助于提高全局模型的性能。如果不是,则参与者将被标记为潜在的攻击者,观察经过几轮该参与者的更新模型之后,服务器可以确定这是否是恶意的参与者。
第二个解决方案基于参与者共享的更新模型之间的比较。特别是,如果来自参与者的更新模型与其他模型差异太大,则参与者可能是恶意的。然后,服务器将继续观察来自该参与者的更新,然后才能确定这是否是恶意用户。然而,模型中毒攻击非常难以预防,因为在数百万参与者的培训中,很难评估每个参与者的改进。因此,需要进一步研究更有效的解决办法。
在[159]中,作者引入了一种更有效的模型中毒攻击,该模型证明,只需一轮学习,攻击者的任务就能达到100%的准确率。特别是,恶意的参与者可以共享其受毒害的模型,该模型不仅为其故意的目的而训练,而且还包含一个后门函数(backdoor function )。在本文中,作者考虑使用语义后门函数注入到全局模型中。(原因:即使不需要修改恶意参与者的输入数据,该函数也可以使全局模型分类错误。)例如,图像分类后门函数可以将攻击者选择的标签注入具有某些特定功能的所有图像,例如,所有带有黑色条纹的狗都可能被误分类为猫。模拟结果表明,这种攻击可以大大优于其他传统的FLl数据中毒攻击。例如,在一项总共有8万参与者的单词预测任务中,仅牺牲其中的8个就足以达到50%的后门准确率,而执行数据中毒攻击所需的恶意参与者有400个。
搭便车攻击:
搭便车是FL中的另一种攻击,当参与者想从全局模型中获益而又不想参与学习过程时,这种攻击就会发生。恶意的参与者,即free rider,可以假装它有非常少的样本要训练,或者它可以选择一个小的集合来训练它的真实数据集,例如,来节省它的资源。因此,诚实的参与者需要在FL训练过程中贡献更多的资源。为了解决这个问题,[160]中的作者引入了一种基于区块链的FL架构,称为BlockFL,在这种架构中,通过利用区块链技术来交换和验证参与者的本地学习模型更新。具体来说,每个参与者在区块链网络中训练并将训练好的全局模型发送给其关联的采矿者,然后获得与训练数据样本数量成比例的奖励,如图14所示。这样,这个框架不仅可以防止参与者搭便车,还可以激励所有参与者为学习过程做出贡献。
图14:传统FL和blockfl架构
在[161]中也引入了一个类似的基于区块链的模型,为FL的参与者提供数据保密性、计算可审核性和激励。然而,区块链技术的使用意味着实施和维护矿工操作区块链网络的重大成本。此外,在区块链网络中使用的一致性协议,例如工作证明(POW),会导致信息交换的长延迟,因此它们可能不适合在FL模型上实现。
在本节中,我们讨论了两个关键问题,即,一般认为,FL是一种有效的隐私保护学习解决方案,可以帮助参与者进行协作模型训练。然而,在本节中,我们展示了恶意的参与者可以利用这个过程并获得对其他参与者的敏感信息的访问。此外,我们还证明了攻击者通过使用FL中的共享模型进行攻击,不仅可以破坏整个学习系统,而且可以伪造训练后的模型来达到其恶意目的。此外,本文还回顾了解决这些问题的方法,这些方法对于指导FL系统管理员设计和实施适当的对策尤为重要。表六总结了FL中攻击的关键信息及其应对措施。
在本节中,我们将重点讨论FL在移动边缘网络优化中的应用。正如[ 34 ]作者所强调的那样,无线网络的复杂性和异构性,增强了采用基于数据驱动的ML方法,来优化移动边缘网络的,系统设计和资源分配决策,的吸引力。但是,正如前面几节所讨论的,用户的私有数据在本质上可能是敏感的。因此,现有的基于学习的方法可以与FL相结合来保护隐私。在本节中,我们考虑FL在边缘计算中的四个应用:
除上述问题外,在大规模部署fl方面还存在挑战、开放性问题和新的研究方向,下面将进行讨论。
本文介绍了FL的教程以及有关FL实施问题的全面调查。
首先,我们首先介绍MEC的动机,以及FL如何在移动边缘网络上用作协作模型训练的支持技术。
在此基础上,阐述了DNN模型训练、FL的基本原理和面向FL的系统设计。
然后,我们将针对FL中新出现的实施挑战提供详细的评论,分析和比较方法。 这些问题包括通信成本,资源分配,数据隐私和数据安全性。
在此基础上,讨论了基于FL的隐私保护移动边缘网络优化的实现。
最后,我们讨论了挑战,未解决的问题以及未来的研究方向。