王婆卖瓜,自卖自夸。这个博客,我简要向大家推荐一下自己近期在联邦蒸馏方面的研究工作,按照心目中创新度从高到低进行排序,与工作的扎实程度以及发表的会议期刊等级无关。如有不妥,真心接受批评指正。
Top-1:FedCache: A Knowledge Cache-driven Federated Learning Architecture for Personalized Edge Intelligence. IEEE Transactions on Mobile Computing. 2024 (Major Revision)
这篇文章提出了一个知识缓存驱动的联邦学习架构,FedCache,通过知识蒸馏优化本地模型,服务器侧的知识缓存有相应的知识匹配与收发机制。
这里十分感谢大佬找一片属于自己的风景,的提点和分析,我觉得他已经写得非常精确和透彻了。十分推荐大家直接移步这篇博客。
目前FedCache架构处在刚刚release出来的阶段,勉强算是个性化联邦学习领域的一个新坑。我相信,对它进行各种角度的改进、扩展到各种个性化联邦学习任务都很容易在与现有方法精度相当的前提下取得两个数量级的通信效率提升。后续的研究发现,即便降低客户端与服务器的通信频率,FedCache仍然可以维持较好的性能,这意味着FedCache的通信效率还有进一步提升的空间。这部分工作可以参考这篇文章。
论文链接:https://arxiv.org/abs/2308.07816
开源代码:https://github.com/wuzhiyuan2000/FedCache
Top-2:Agglomerative Federated Learning: Empowering Larger Model Training via End-Edge-Cloud Collaboration. IEEE International Conference on Computer Communications (INFOCOM). 2024
这篇文章通过知识蒸馏解决了联邦学习部署在端边云计算架构下所面临的算力异构问题,即克服了传统的端边云联邦学习方法要求所有层级的算力节点均部署相同规模的模型所导致的木桶效应。这篇文章中,不同层级的算力节点优化通过共蒸馏完成,文章内容的介绍可以参考这个链接。
论文链接:https://www.techrxiv.org/doi/full/10.36227/techrxiv.24720759.v1
开源代码:https://github.com/wuzhiyuan2000/FedAgg
Top-3:FedICT: Federated Multi-task Distillation for Multi-access Edge Computing. IEEE Transactions on Parallel and Distributed Systems (TPDS). 2023
这篇文章的主要motivation是考虑边缘计算场景下客户端普遍同时存在的系统异构与任务异构特性,提出了一个联邦多任务蒸馏方法去解决这个问题。文章内容的介绍可以参考这篇博客。
论文链接:https://ieeexplore.ieee.org/document/10163770
Top-4:Exploring the Distributed Knowledge Congruence in Proxy-data-free Federated Distillation. ACM Transactions on Intelligent Systems and Technology (TIST). 2024
这篇文章主要考虑了免代理数据集联邦蒸馏中的知识不一致性问题,即:由于客户端模型异构的特性,会导致本地知识置信度之间存在显著差异,服务器学习到的表征因此存在偏差,进而降低整个联邦学习系统的性能。文章内容的介绍可以参考这篇博客。
论文链接:https://arxiv.org/abs/2204.07028
Top-5:Survey of Knowledge Distillation in Federated Edge Learning. arXiv preprint arXiv:2301.05849. 2023
这篇文章调研了将知识蒸馏方法应用到联邦边缘学习领域的部署形式以及解决的挑战,并提出了一些开放性问题。文章内容的介绍可以参考这篇博客。
论文链接:https://arxiv.org/abs/2301.05849
Top-6:Improving Communication Efficiency of Federated Distillation via Accumulating Local Updates. arXiv preprint arXiv:2312.04166. 2023
这篇文章给出了一个发现,即对于部分联邦蒸馏算法,降低客户端与服务器的通信频率,在空闲轮次使用历史性的知识并不一定会显著降低模型性能。
论文链接:https://arxiv.org/abs/2312.04166