[ai-004] 联邦学习--简介

1.联邦学习 Federated learning参考资料
https://blog.csdn.net/librahfacebook/article/details/90043815 (联邦学习(Federated Learning))
https://blog.csdn.net/Sinsa110/article/details/90697728 (联邦学习 Federated Learning 相关资料整理)
https://zhuanlan.zhihu.com/p/42646278 (杨强:GDPR对AI的挑战和基于联邦迁移学习的对策)
https://blog.csdn.net/weixin_45439861/article/details/100670390(只看这一篇就够:快速了解联邦学习技术及应用实践)
https://blog.csdn.net/Mr_Zing/article/details/100051535  (Tensorflow Federated Framework 谷歌联邦学习框架:自底向上简明入门)


2.联邦学习的开源框架
2.1 腾讯 微众银行 杨强团队 FATE框架  
https://github.com/WeBankFinTech/FATE

2.2 google联邦迁移学习 Tensoflow Federated框架
https://www.tensorflow.org/federated/

3.主要论文
3.1 Towards Federated Learning at Scale: System Design 
  https://arxiv.org/pdf/1902.01046
3.2 Secure Federated Transfer Learning
  https://arxiv.org/abs/1812.03337
3.3 Federated Reinforcement Learning
  https://arxiv.org/abs/1901.08755
3.4 SecureBoost: A Lossless Federated Learning Framework
  https://arxiv.org/abs/1901.08755


4.联邦学习的三种方式
不同的机构,持有各自的数据。假设有n个机构,每家持有的数据为D_i,D_i是一个矩阵,每行是一个用户,每列是一个用户特征。有些D_i有标签特征,不是所有D_i都有标签特征(标签即类别)。用户特征,叫X。标签特征,叫Y。
基于 用户、用户特征、标签特征,有三种联邦学习方式。

4.1 横向联邦学习
多个D_i,它们的“用户” 重叠少,“用户特征”重叠多。取出重叠的“用户特征”数据集进行训练,此时,取出数据集的“用户”不完全相同。比如,不同城市的城商行,用户不重复,用户特征重复多。

重复的用户,不用处理,分布式训练,相互不影响。

4.2 纵向联邦学习
多个D_i,它们的“用户”重叠较多,“用户特征”重叠较少。取出双方用户相同的数据集进行训练,此时,取出数据集的“用户特征”不完全相同。比如,上海本地一家银行和本地一家电商,用户重复多,用户特征重复少。逻辑回归,树模型,神经网络已经可以用在纵向联邦学习上。

4.3 联邦迁移学习

多个D_i,它们的“用户”重叠少,“用户特征”重叠也少。联邦迁移学习。比如,一家中国银行,一个美国电商。


5 联邦学习流程
5.1 加密样本对齐。不公开数据的前提下,确认多方的共有用户,不暴露不重叠用户。寻找用户的交集,但绝对不能泄露差集。
5.2 加密训练。需要借助第三方协作者。
5.3 训练结果:各方获得自己的训练模型,每个模型都可能不一样,每个模型都比各方用自己的数据单独训练更好。

6.问题
数据使用如何计费?收益如何分配。
效率如何评估?


 

你可能感兴趣的:([ai-004] 联邦学习--简介)