Federated Learning with Non-IID Data 论文笔记

Federated Learning with Non-IID Data 论文笔记

原文翻译参考:https://blog.csdn.net/GJ_007/article/details/104632718

论文通过实验验证了,在non-IID数据中,使用FedAvg算法训练的模型会使准确率降低。

Federated Learning with Non-IID Data 论文笔记_第1张图片

从图中可以看出在non-IID使用FedAvg算法训练的模型准确率有了明显的下降,但是对于IID数据的准确率几乎没有影响。

为了探究原因,原文采用了两种不同程度分布的数据:non-IID1和non-IID2。从图中可以发现non-IID2的准确率比non-IID1的准确率下降的少,所以推测原因是因为数据分布的不同。

 

FedAvg算法训练的模型准确率收到数据分布偏态性的影响。

研究方法:使用相同的初始化值训练模型,观察得到的权值的差异

定义权值差异

Federated Learning with Non-IID Data 论文笔记_第2张图片

从上图可以看出IID数据中FedAvg和SGD得到的权值差异不大,并观察折线的趋势,在接下来的几轮更新后得到的权值差异也不大。在右图可以观察出FedAvg和SGD得到的权值差异较大,且根据折线的趋势可以看出这种差异会越来越大。

原文采用了EMD方法来计算数据分布之间的差异

推导出公式:

Federated Learning with Non-IID Data 论文笔记_第3张图片

所以第m次同步后的权值差异主要来自第m-1次和和实际总分布的差异

 

并提出只需共享5%的全局数据便可提高准确率30%

Federated Learning with Non-IID Data 论文笔记_第4张图片

原文最后提到全局共享数据是与客户端不同的数据集,因此对隐私不敏感。

可是原文中并未提到云端全局共享的数据是从哪来的,为什么对隐私不敏感。

没读明白

欢迎大家评论提出自己的看法哈哈

你可能感兴趣的:(联邦学习,论文笔记,FedAvg)