学习联邦学习小结(1)

    最近开始学习杨强、刘洋等老师的《联邦学习》一书。以下是自己总结的第一章主要内容。仅供学习交流。

一、出现的背景
医疗图像中出现难以桥接的数据孤岛。用户购买行为和支付习惯的数据拥有权不明确,用户趋向于保护数据隐私。卫星,自动驾驶汽车等要求减少信息传输消耗。

二、联邦学习思想
有数据源的用户自己训练模型,在模型上进行沟通交流,最终通过模型聚合得到全局模型。用户的数据是不需要上传交流的。
1.定义
联邦学习目的是建立一个基于分布数据集的联邦学习模型。联邦学习包括两个过程,分别是模型训练和模型推理。
模型训练:模型相关信息可以在各方之间交换(或加密交换),但数据不能。
模型推理:模型可应用于新的数据实例。
(感觉像有监督学习的训练集和测试集)
2.特征
a.有两个或以上的参与方共建一个共享的机器学习模型,每个参与方都拥有若干能训练模型的训练数据。
b.数据不离开数据拥有者。
c.加密,保证任何参与方都推测不出其他方的原始数据。
d.模型性能充分逼近理想模型(数据集中训练的模型)的性能。
存在δ为非负实数,使理想模型性能度量减去联邦学习模型性能度量小于δ。
(感觉为了保护隐私和数据安全,或者为了减小通信开销,牺牲掉了小部分性能)
联邦学习系统可能设计也可能不涉及中央协调方(应该也叫终端)。

三、联邦学习分类
学习联邦学习小结(1)_第1张图片

(书中定义)
根据训练数据在不同参与方之间的数据特征空间和样本ID空间的分布情况,联邦学习划分为横向联邦学习、纵向联邦学习和迁移联邦学习。
书中解释的图有点看不懂,因此查找资料:
添加链接描述
此为三类方法的区别。

你可能感兴趣的:(人工智能,机器学习)