联邦学习-数据安全和用户隐私的简要概述

联邦学习-数据安全和用户隐私的简要概述

1. 联邦学习出现的原因

首先,联邦学习是一种框架,是为了解决机器学习时各个数据来源之间的壁垒而创建的一种框架。同时也满足了各个数据的拥有者隐私性保护和相关政府法规的要求。

2.联邦学习模型

2.1:加密样本对齐阶段:由于三家企业的用户群体并非完全重合,模型采用基于加密的用户样本对齐技术,目的是为了在 A 、B和D 不公开各自数据的前提下确认各方的共同拥有的用户,而且不暴露不互相重叠的用户,最终以便联合这些用户的特征进行模型的创建。

2.2:加密模型训练阶段在确定共有用户群体后,就可以利用这些数据训练机器学习的模型。为了保证训练过程中数据的保密性,需要借助第三方协作者 C 进行加密训练。以线性回归模型为例,训练过程可分为以下 4 步:
第1步:协作者 C 把公钥分发给 A 、B和D,用以对训练过程中需要交换的数据进行加密,注意传输的数据是模型的计算中间结果,不涉及用户隐私,当然虽然传输的数据是加密的,但模型训练的时候是要用私钥解密的。
第2步:A 、B和D 之间以加密形式(RSA加密,其实这是基于没有恶意用户的环境下的保护用户隐私方法)交互用于计算梯度的中间结果。关于中间结果?
例如:假设A样本上有n1和n2特征,B样本上有n3和n4特征以及标签f,模型为线性回归;首先,A根据当前模型计算每条记录的n1和n2线性组合的结果,B根据当前模型计算每条记录的n3和n4线性组合

你可能感兴趣的:(联邦学习-隐私,机器学习,人工智能)