提出的问题很有意思
Two practical scenarios of Federated Semi-Supervised Learning (FSSL):
Federated Learning.
…
Semi-Supervised Learning
The ratio of unlabeled data ( U = { x i , y i } i = 1 U U=\{x_i,y_i\}_{i=1}^U U={ xi,yi}i=1U) is usually much larger than that of the labeled data ( S = { x i , y i } i = 1 S S=\{x_i,y_i\}_{i=1}^S S={ xi,yi}i=1S) (e.g. 1 : 10).
Define the p θ ( y ∣ x ) p_{\theta}(y|x) pθ(y∣x) be a neural network that is parameterized by weights θ \theta θ and predicts softmax outputs y ^ \widehat{y} y with given input x.
Objective loss function: l f i n a l θ ) = l s ( θ ) + l u ( θ ) \mathcal{l}_{final} \theta)=\mathcal{l}_{s}(\theta)+ \mathcal{l}_{u}(\theta) lfinalθ)=ls(θ)+lu(θ).
Federated Semi-Supervised Learning
Given a dataset D = { x i , y i } i = 1 N D=\{x_i,y_i\}_{i=1}^N D={ xi,yi}i=1N , D D D is split into a labeleds set S = { x i , y i } i = 1 S S=\{x_i,y_i\}_{i=1}^S S={ xi,yi}i=1S and unlabeled data U = { x i , y i } i = 1 U U=\{x_i,y_i\}_{i=1}^U U={ xi,yi}i=1U.
A global model G G G and a set of local models L \mathcal{L} L where
Federated Matching (FedMatch)
1 H ∑ j = 1 H K L [ p θ h j ∗ ( y ∣ u ) ∣ ∣ p θ l ( y ∣ u ) ] \frac{1}{H} \sum_{j=1}^H KL [p^{*}_{\theta^{h_j}}(y|u)||p_{\theta^l} (y|u)] H1j=1∑HKL[pθhj∗(y∣u)∣∣pθl(y∣u)]
这里 p θ h j ∗ ( y ∣ u ) p^{*}_{\theta^{h_j}}(y|u) pθhj∗(y∣u)代表筛选后的客户端基于模型的相似性,同时星号代表冷冻了这些参数,不更新这些筛选的模型。服务器每次选择并广播 H H H个用于帮助的客户端。最终一致约束损失函数:
Φ ( ⋅ ) = C r o s s E n t r o p y ( y ^ , p θ l ( y ∣ π ( u ) ) ) + 1 H ∑ j = 1 H K L [ p θ h j ∗ ( y ∣ u ) ∣ ∣ p θ l ( y ∣ u ) ] \Phi(\cdot) = CrossEntropy(\widehat{y},p_{\theta^l}(y|\pi(u)))+\frac{1}{H} \sum_{j=1}^H KL [p^{*}_{\theta^{h_j}}(y|u)||p_{\theta^l}(y|u)] Φ(⋅)=CrossEntropy(y ,pθl(y∣π(u)))+H1j=1∑HKL[pθhj∗(y∣u)∣∣pθl(y∣u)]
在这里 π ( u ) \pi(u) π(u)代表随机增强 对于 无标签的数据,而对于对应的生成的标签 y ^ \widehat{y} y :
y ^ = M a x ( I ( p θ l ( y ∣ u ) ) + ∑ j = 1 H I p θ h j ∗ ( y ∣ u ) \widehat{y}=Max (\mathbb{I}(p_{\theta^l} (y|u))+\sum_{j=1}^H \mathbb{I}p^{*}_{\theta^{h_j}}(y|u) y =Max(I(pθl(y∣u))+j=1∑HIpθhj∗(y∣u)
I \mathbb{I} I代表生成one-hot的标签,Max( ⋅ \cdot ⋅) 输出one-hot 标签 中最大参数对应的类结果
有标签数据:
m i n i m i z e L s ( σ ) = λ s C r o s s E n t r o p y ( y , p σ + ψ ∗ ( y ∣ x ) ) minimize \mathcal{L}_s(\sigma)=\lambda_s CrossEntropy(y,p_{\sigma+\psi^*}(y|x)) minimizeLs(σ)=λsCrossEntropy(y,pσ+ψ∗(y∣x))
无标签数据:
m i n i m i z e L u ( ψ ) = λ I C C S Φ σ ∗ + ψ ( ⋅ ) + λ L 2 ∣ ∣ σ ∗ − ψ ∣ ∣ 2 2 + λ L 1 ∣ ∣ ψ ∣ ∣ 1 minimize \mathcal{L}_u (\psi) = \lambda _{ICCS}\Phi_{\sigma^*+\psi}(\cdot)+\lambda_{L_2}||\sigma^*-\psi||^2_2+\lambda_{L_1}||\psi||_1 minimizeLu(ψ)=λICCSΦσ∗+ψ(⋅)+λL2∣∣σ∗−ψ∣∣22+λL1∣∣ψ∣∣1
Benefit:
Preservation Reliable Knowledge from Labeled Data
Reduction of Communication Costs
Disjoint Learning
Labels-At-Client Scenario
“客户端标签”场景假定最终用户会间歇性地注释其本地数据的一小部分(即,占整个数据的5%),而其余数据实例未标记。 这是用户生成的个人数据的常见情况,在这种情况下,最终用户可以轻松地注释数据,但可能没有时间或动力来标记所有数据(例如,为相册或社交网络注释图片中的面孔)。 我们假设客户端对标记和未标记的数据进行训练,而服务器仅聚合来自客户端的更新,然后将聚合的参数重新分发回客户端。
Labels-At-Server Scenario
现在,我们描述另一个现实的设置,即服务器标签场景。 此方案假定受监督的标签仅在服务器上可用,而本地客户端使用未标签的数据。
有意思的权重定义方式,但是隐私问题
在这种情况下,FL实际上缺乏跨客户的独立且均匀分布(IID)数据假设,这既可能是burden,也可能是blessing。 在非IID数据批次之间学习单个全局模型可能会带来挑战,例如无法保证的收敛性和模型参数的离散性。
此外,尝试微调这些全局模型可能会导致对本地客户端测试集的适应性较差。 但是,每个客户的本地数据的非IID性质也可以提供有用的信号,以区分其基础本地数据分布,而无需共享任何数据。 我们利用这一信号为个性化FL提出一个新的框架。 我们没有像以前的工作那样给所有客户相同的全球模型平均权重,而是通过恒定的本地培训规模对其进行加权,而是针对每个客户,通过对个性化目标测试进行评估来计算可用模型的加权组合,以最佳地与该客户的利益保持一致分配。
在每个联盟学习轮之后,我们将分别维护客户端上载的参数,从而使下一轮中的客户端能够彼此独立地下载这些副本。 然后,每次联邦更新都是一个两步过程:给定一个本地目标,客户(1)评估其接收的模型在其目标任务上的执行情况;(2)使用各自的表现评估结果在个性化更新中对每个模型的参数进行加权。
FedFomo
每个用户的联邦更新取决于简单的first-order model optimization approximating a personalized gradient step
fear of missing out 错失恐惧症,也称社群恐慌症等,是指一种由患得患失所产生持续性的焦虑,得上这种症的人总会感到别人在自己不在时经历了什么非常有意义的事情。这种社会焦虑被描绘为想要与别人在干什么至始至终保持关联的渴望。
每个客户不再需要在每个联邦回合中考虑所有活动客户的贡献。 换句话说,好奇心可以杀死猫。 可以通过限制每个联合更新中无用的模型来保存每个模型的个性化性能
Let C \mathbb{C} C be a population with ∣ C ∣ = K |\mathbb{C}|=K ∣C∣=K total clients, where each client c i ∈ C c_i \in \mathbb{C} ci∈C carries local data D i D_i Di sampled from some distribution D D D and local model parameters θ i l ( t ) \theta_i^{\mathcal{l}(t)} θil(t) during any round t t t.
Each c i c_i ci maintans some personalized objetive or task T i \mathcal{T}_i Ti.
A test dataset D i t e s t ∼ D ∗ . D_i^{test}\sim D^*. Ditest∼D∗. We define each T i : = m i n L ( θ i l ( t ) ; D i t e s t ) \mathcal{T}_i :=min \mathcal{L}(\theta_i^{\mathcal{l}(t)};D_i^{test}) Ti:=minL(θil(t);Ditest)
We aim to obtain the optimal set of model parameters:
{ θ 1 ∗ , . . . , θ K ∗ } = a r g m i n ∑ i ∈ [ K ] L T i ( θ i ) \{\theta_1^*,...,\theta_K^*\}=arg min \sum_{i\in [K]} \mathcal{L_T}_i(\theta_i) { θ1∗,...,θK∗}=argmini∈[K]∑LTi(θi)
Federated learning as an iterative local model update
Tradition Update :
θ G ( t ) = ∑ n = 1 N w n ⋅ θ n l ( t ) , w h e r e w n = ∣ D n t r a i n ∣ / ∑ j = 1 N D j t r a i n \theta^G(t) = \sum_{n=1}^N w_n \cdot\theta_n^{\mathcal{l}(t)},where w_n = |D_n^{train}|/\sum_{j=1}^N D_j^{train} θG(t)=n=1∑Nwn⋅θnl(t),wherewn=∣Dntrain∣/j=1∑NDjtrain
We then wish to find the optimal weights w = < w 1 , w 2 , . . . w N > w =
Efficient personalization with FedFomo:
w n = L i ( θ i l ( t − 1 ) ) − L i θ i l ( t ) ) ∣ ∣ θ n l ( t ) − θ n l ( t − 1 ) w_n= \frac{\mathcal{L}_i(\theta_i^{\mathcal{l}(t-1)})-\mathcal{L}_i\theta_i^{\mathcal{l}(t)})}{||\theta_n^{\mathcal{l}(t)}-\theta_n^{\mathcal{l}(t-1)}} wn=∣∣θnl(t)−θnl(t−1)Li(θil(t−1))−Liθil(t))
如果计算得到的 w n w_n wn参数小于0,则 w n = m a x ( w n , 0 ) w_n=max(w_n,0) wn=max(wn,0), and among positive w n w_n wn nomalize with w n = m a x ( w n , 0 ) ∑ n m a x ( w n , 0 ) w_n=\frac{max(w_n,0)}{\sum_n max(w_n,0)} wn=∑nmax(wn,0)max(wn,0).
更多的是一种聚合 权重的新颖方式
HeteroFL 训练异构的本地网络(他们有不同的计算能力)并且能够依旧构造一个全局推断模型。
这里定义的模型异构区别于传统的方式,他是自适应地获取subnetworks 基于用户的计算能力(相对而言是 一个庞大的模型的一部分):由于我们的主要动机是减少本地客户端的计算和通信复杂性,因此我们认为本地模型具有相似的体系结构,但可以在同一模型类内降低其复杂性。( W i t + 1 ⊆ W i g W_i^{t+1}\subseteq W_i^g Wit+1⊆Wig)
据我们所知,我们所呈现的是第一项允许本地模型具有与全局模型不同的体系结构的工作。 异构本地模型可以使本地客户适应性地为全局模型的训练做出贡献。 系统的异构性和通信效率可以通过我们的方法很好地解决,本地客户可以优化低计算复杂性模型,从而传达少量模型参数。 为了解决统计上的异质性,我们针对分类问题中的平衡非IID数据分区提出了“掩盖技巧”。 我们还建议对批处理规范化(BN)进行修改(Ioffe和Szegedy,2015年),因为运行估计的隐私问题会阻碍高级深度学习模型的使用。
Subsets of global model parameters W l W_l Wl for a single hidden layer parameterized by W g ∈ R d g × k g W_g \in R^{d_g \times k_g} Wg∈Rdg×kg, where d g d_g dg and k g k_g kg are the output and input channel size of this layer. Let r r r be the hidden channel shrinkage ratio such that d l p = r p − 1 d g d_l^p=r^{p-1}d_g dlp=rp−1dg and k l p = r p − 1 k g k_l^p=r^{p-1}k_g klp=rp−1kg. Hence, ∣ W l p ∣ = r 2 ( p − 1 ) ∣ W g ∣ |W_l^p|=r^{2(p-1)}|W_g| ∣Wlp∣=r2(p−1)∣Wg∣.
Suppose that number of clients in each computation complexity level is { m 1 , . . . , m p } \{m_1,...,m_p\} { m1,...,mp}.
W l p = 1 m ∑ i = 1 m W i p W_l^p=\frac{1}{m}\sum_{i=1}^m W_i^p Wlp=m1i=1∑mWip
It shows that the smallest part of model parameters (blue, p = 3) is aggregated from all the local clients that contain it.
W l p − 1 \ W l P = 1 m − m p ∑ i = 1 m − m p W i p − 1 \ W i p W_l^{p-1} \backslash W_l^P=\frac{1}{m-m_p}\sum_{i=1}^{m-m_p}W_i^{p-1} \backslash W_i^p Wlp−1\WlP=m−mp1i=1∑m−mpWip−1\Wip
W l 1 \ W l 2 = 1 m − m 2 : p ∑ i = 1 m − m 2 : p W i 1 \ W i 2 W_l^{1} \backslash W_l^2=\frac{1}{m-m_{2:p}}\sum_{i=1}^{m-m_{2:p}}W_i^{1} \backslash W_i^2 Wl1\Wl2=m−m2:p1i=1∑m−m2:pWi1\Wi2
W g = W l 1 = W l p ∪ ( W i p − 1 \ W i p ) ∪ . . . ∪ W i 1 \ W i 2 W_g = W_l^1=W_l^p \cup(W_i^{p-1} \backslash W_i^p)\cup ... \cup W_i^{1} \backslash W_i^2 Wg=Wl1=Wlp∪(Wip−1\Wip)∪...∪Wi1\Wi2
The set difference between part p − 1 (orange) and p (blue) of model parameters is aggregated from local clients with computation complexity level smaller than p − 1
$ W^t_g[:d_m,: km] $denotes the upper left submatrix with a size of d m × k m d_m × k_m dm×km.
W g p − 1 , t + 1 \ W g p , t + 1 W^{p-1,t+1}_g \backslash W_g^{p,t+1} Wgp−1,t+1\Wgp,t+1 代表属于 W g p − 1 , t + 1 W^{p-1,t+1}_g Wgp−1,t+1但不属于 W g p , t + 1 W^{p,t+1}_g Wgp,t+1
将全局模型参数分配给活动的本地客户端后,我们可以使用私有数据优化本地模型参数。 众所周知,最新的深度学习模型通常采用批归一化(BN)来促进和稳定优化。 但是,经典的FedAvg和最新著作都避免使用BN。 BN的一个主要问题是它需要对每个隐藏层的表示进行运行估计。 将这些统计信息上传到服务器将导致更高的通信成本和隐私问题。
我们重点介绍了一种称为静态批处理规范化(sBN)的BN改编,用于优化优先级受限的异构模型。 在训练阶段,sBN不会跟踪运行估算值,而只是将批处理数据标准化。 我们不会跟踪本地运行统计信息,因为本地模型的大小也可能动态变化。 该方法适用于HeteroFL,因为每个通信回合都是独立的。 培训过程完成后,服务器将顺序查询本地客户端并累积更新全局BN统计信息。 对于累积计算全球统计数据存在隐私方面的担忧,我们希望在以后的工作中解决这些问题。
目的在于解决feature shift (where local clients store examples with different distributions compared to other clients, which we denote as feature shift non-iid.)
看求不懂…甩数学公式是真的酷炫啊…
目的在于提高收敛&计算速度
本文的主要贡献可以概括如下:
我们研究了使用服务器和客户端优化器进行联合优化的通用框架。该框架概括了许多现有的联合优化方法,包括FEDAVG。
我们使用此框架来设计新颖的,跨设备兼容的自适应联合优化方法,并在一般非凸设置下提供收敛分析。据我们所知,这是使用自适应服务器优化进行FL的第一种方法。我们展示了本地步骤数量与客户之间的异质性之间的重要相互作用。
我们引入了全面且可重现的经验基准,用于比较联合优化方法。这些基准测试包括涉及图像和文本数据的七种多样且具有代表性的FL任务,具有不同数量的异构性和客户数量。
我们展示了自适应优化器在整个过程中的强大经验性能,并在常用基准上进行了改进。我们的结果表明,我们的方法可以更轻松地进行调整,并突出显示它们在跨设备设置中的实用性。
允许客户之间发送数据,通过近似和增加参与方得到平均的数据结果
在独立且均布的(iid)本地数据的假设下有可喜的结果,但随着客户端之间本地数据异质性的提高,当前最新的算法会遭受性能下降的困扰。为了解决此问题,我们提出了一个简单的框架,即均值增强联合学习(MAFL),在该框架下,客户可以根据目标应用程序的隐私要求发送和接收平均本地数据。在我们的框架下,我们提出了一种名为FedMix的新扩充算法,该算法的灵感来自于一种惊人而又简单的数据扩充方法Mixup,但它不需要在设备之间直接共享本地原始数据。与传统算法相比,在高度非联合联合设置下,我们的方法在FL的标准基准数据集中显示出显着改善的性能
x ~ = λ x i + ( 1 − λ ) x j \widetilde{x} = \lambda x_i + (1-\lambda)x_j x =λxi+(1−λ)xj
y ~ = λ y i + ( 1 − λ ) y j \widetilde{y} = \lambda y_i + (1-\lambda)y_j y =λyi+(1−λ)yj
λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ∈[0,1]
In order to mitigate the heterogeneity across clients while protecting privacy, we provide a novel yet simple framework, mean augmented federated learning (MAFL), in which each client exchanges the updated model parameters as well as its mashed (or averaged) data.
只能将丢失了大多数歧视性信息的我们框架中的平均数据带走,从而产生与全局混合类似的效果,在这种情况下,客户无需访问即可直接访问其他人的私有数据。(已证明还ok:Taylor expansion of global Mixup only involves the averaged data from other clients.)
FedMix的loss函数计算:
l F e d M i x = 1 ∣ J ∣ ∑ j ∈ J ( 1 − λ ) l ( f ( ( 1 − λ ) x i ) , y i ) + λ l ( f ( ( 1 − λ ) x i ) , y i ) + λ ∂ l ∂ x ⋅ x j \mathcal{l}_{FedMix}=\frac{1}{|J|}\sum_{j\in J}(1-\lambda)l(f((1-\lambda)x_i),y_i)+\lambda l(f((1-\lambda)x_i),y_i)+\lambda \frac{\partial l}{\partial x}\cdot x_j lFedMix=∣J∣1j∈J∑(1−λ)l(f((1−λ)xi),yi)+λl(f((1−λ)xi),yi)+λ∂x∂l⋅xj
进一步得到:
l F e d M i x = ( 1 − λ ) l ( f ( ( 1 − λ ) x i ) , y i ) + λ l ( f ( ( 1 − λ ) x i ) , y ˉ i ) + λ ∂ l ∂ x ⋅ x ˉ j \mathcal{l}_{FedMix}=(1-\lambda)l(f((1-\lambda)x_i),y_i)+\lambda l(f((1-\lambda)x_i),\bar{y}_i)+\lambda \frac{\partial l}{\partial x}\cdot \bar x_j lFedMix=(1−λ)l(f((1−λ)xi),yi)+λl(f((1−λ)xi),yˉi)+λ∂x∂l⋅xˉj
针对模型整合model aggregation,使用了高斯分布和狄利克雷分布
联合学习旨在通过访问用户的本地训练模型而不是他们自己的数据来协作训练一个强大的全局模型。因此,至关重要的一步是将局部模型聚合为全局模型,这在用户没有i.i.d时显示出挑战。数据。在本文中,我们提出了一种新的聚合算法FEDBE,它通过对高质量的全局模型进行采样并通过贝叶斯模型Ensemble对其进行组合,从而从贝叶斯推理的角度出发,从而实现了强大的聚合。我们表明,可以通过简单地将高斯或Dirichlet分布拟合到局部模型来构建有效的模型分布。我们的实证研究证实了FEDBE的出色性能,尤其是在没有i.i.d.用户数据的情况下。以及当神经网络更深入时。此外,FEDBE与最近在规范用户模型训练方面所做的努力兼容,使其成为易于应用的模块:您只需要替换聚合方法,而使联邦学习算法的其他部分保持不变。