Ensemble distillation for robust model fusion in federated learning论文笔记

   本文将集成蒸馏运用在联邦学习的模型融合中,并且可以通过未标记的数据或者生成器生成的数据(例如gan)来进行进行模型融合。这让不同客户端的模型异构的前提下,降低了数据隐私泄露的程度。同时实验表明,本文提出的方法练速度更快,比任何现有的FL技术所需的通信轮数更少。


论文地址:ENSEMBLE DISTILLATION FOR ROBUST MODEL FUSION IN FEDERATED LEARNING 2020 NIPS

算法细节
模型同构的情况下,对于每一轮可以分为两个步
  第一步:和FedAvg的过程一样,随机选择一些客户端发送上一轮的聚合模型参数,客户端利用本地数据更新参数并将更新后的参数发送给服务端,服务端将接收到的模型参数取权值平均。
Ensemble distillation for robust model fusion in federated learning论文笔记_第1张图片  第二步:服务端将接收到的模型参数取权值平均后,再利用未标记的数据或通过生成器生成的数据(例如GAN)进行集成蒸馏得到这一轮的聚合模型参数。
Ensemble distillation for robust model fusion in federated learning论文笔记_第2张图片
那集成蒸馏是怎样的呢?
  服务器需要将 ∣ S t ∣ |S_{t}| St客户端老师模型的集成蒸馏到一个服务端学生模型。在每一步中,取样一个batch的未标记的数据或者生成器生成的数据,然后进行蒸馏
在这里插入图片描述
  其中 σ \sigma σ表示softmax函数, K L KL KL表示KL散度, f ( a ^ t k ) f( \hat{a}^{k}_{t}) f(a^tk)表示在第 t t t轮中第 k k k个客户端模型在第 d d d个batch的输出(注意第9行最后的AVGLOGITS,这表示客户端模型的输出还没经过softmax,是平均后再softmax)

模型异构的情况下,对于每一轮可以分为两个步:
  第一步:和FedAvg的过程一样,随机选择一些客户端发送上一轮的聚合模型参数,客户端利用本地数据更新参数并将更新后的参数发送给服务端,服务端将接收到的模型参数取权值平均。
Ensemble distillation for robust model fusion in federated learning论文笔记_第3张图片
  第二步:与同构模型相比,异构模型主要的不同之处在于第9,10,11这三行。这三行的意思对每一种架构的模型都进行一次集成蒸馏。
Ensemble distillation for robust model fusion in federated learning论文笔记_第4张图片



实验结果
Ensemble distillation for robust model fusion in federated learning论文笔记_第5张图片
  在上图中 α \alpha α表示non-iid程度, α \alpha α越小表示客户端的数据越non-iid。第一行是显示的数据的分布。第二行显示的是FedAvg和FedDF效果的比较。
  可以看出本地训练epoch数量增加对FedDF是有利的,这是因为模型集成的性能在很大程度上依赖于单个模型之间的多样性。因此本地训练更多epoch数可以提高单个模型的多样性和质量,从而获得更好的融合模型蒸馏结果。并且随着本地epoch数的增加,训练中的通信次数也可以减少。



Ensemble distillation for robust model fusion in federated learning论文笔记_第6张图片
  上图显示了多种算法在不同的条件下达到目标准确度所需要的通讯轮数。可以看出FedDF在所有条件下都比其它算法需要更少的通讯轮数,并且随着non-idd程度的变大,需要增加的通讯轮数也没有其它算法那么多。
  与其它算法相比,增加每轮客户端参与的比例对FedDF有更显著的正面影响,作者将其归因于这样一个事实,即有更多合理的好的参与者,从而导致更好的模型融合。


Ensemble distillation for robust model fusion in federated learning论文笔记_第7张图片
  上图显示了FedDF和FEDAVG6在一个具有三种不同体系结构的异构系统中的训练动态,即ResNet-20、MobileNetV2和SHUFFLEENTV2。在CIFAR-10/100和ImageNet上,FedDF在每个通信轮的测试准确度上都明显好于FedAvg,方差也小得多。与集成性能相比,每个融合模型的质量损失很小,这表明来自其他领域的未标记数据集对于模型融合来说是足够的。此外,当训练数据集包含比蒸馏数据集更多的类时,融合模型与集成模型之间的差距会扩大。


Ensemble distillation for robust model fusion in federated learning论文笔记_第8张图片  图6(a)说明,一般而言,蒸馏数据的多样性不会显著影响整体蒸馏的性能,尽管当两个数据具有相似数量的类别时,可以获得最佳性能。图6(b)显示了FedDF对蒸馏数据集的大小没有要求:即使1%的数据(约为48%的本地训练数据集)也能产生相当好的融合性能。图6(c)描述了蒸馏的步数对聚合模型能的影响,其中FedDF与适量的蒸馏步数能够接近最佳性能。例如,图6(c)中的100个蒸馏步数对应于CIFAR-100的5个本地epoch(由20个客户端划分),足以产生令人满意的性能。

你可能感兴趣的:(论文笔记,联邦学习,知识蒸馏)