联邦学习 (隐私计算)

联邦学习是一个机器学习框架,能帮助不同机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据联合使用和建模。具体地说,联邦学习要解决这样一个问题:在企业各自数据不出本地的前提下,通过加密机制下的参数交换与优化,建立一个虚拟的共有模型。这个共有模型的性能类似于将各方数据聚合到一块训练出来的模型。该数据联合建模方案不泄露用户隐私且符合数据安全保护的原则。

 

现在主流用于机器学习的隐私计算方法主要有三种:差分隐私同态加密安全多方计算

 

差分隐私(differential privacy):

       差分隐私采用了一种随机机制,使得当改变输入中的单个样本之后,输出的分布不会有太大的改变。或者说,对于差别只有一条记录的两个数据集,查询他们获得相同的输入的概率非常接近。

在这些方法中,差分隐私由于其更强的加密保护、更简洁的算法、更小的系统开销,所以得到更广泛的应用。

 

他要解决的问题是为了保护这样一种场景:

早上查询医院流感人数、有病人700人。

朋友Alice早上去医院看病。

下午查询医院流感人数,有病人701人。

那么就可以推测Alice很大可能去医院看了流感。

       

简单来说差分隐私的方法就是:公布流感的人数 = 准确人数 + 噪声

 

同态加密:(homomorphic encryption)

同态加密能够在不解密的情况下,对密文数据进行计算。这使您无需破坏敏感源数据,同时可以对数据进行处理。同态加密方案最有趣的地方在于,其关注的是数据处理安全。同态加密提供了一种对加密数据进行处理的功能。也就是说,其他人可以对加密数据进行处理,但是处理过程不会泄露任何原始内容。同时,拥有密钥的用户对处理过的数据进行解密后,得到的正好是处理后的结果。

 

一般分为:

加法同态:f (A) + f (B) = f (A+B)

乘法同态:f (A) * f (B) = f (A*B)

全同态加密:同时满足加法同态和乘法同态的算法。

 

安全多方计算(MPC: Secure Muti-Party Computation):

解决一组互不信任的参与方之间保护隐私的协同计算问题,确保输入的独立性、计算的正确性、去中心化等特征,同时不泄露各种输入值给参与计算的其他成员。

 

联邦学习中的隐私计算改进方向:

联邦学习最新的研究成果大多都是对上述加密计算方法的改进,对于联邦学习来说,除了提供一个严格的隐私保护之外,还需要开发一些计算成本低、通信效率高、对退出的设备容错率高的算法,并且不能过多的降低准确性。

 

比如:

 

《Practical Secure Aggregation for Privacy-Preserving Machine Learning》改进了SMC。中央服务器不能看到任何本地更新,但仍然可以在每轮中观察模型的聚合结果。SMC是一种对精度来说无损的方法,能够在保证很高的保密性的前提下保持原始精度。然而,由此会带来显著的额外通信成本。

 

因为差分隐私应用于联邦学习时,有许多影响通信和准确性的超参数,必须谨慎选择,《Differentially private learning with adaptive clipping》提出了一种自适应梯度裁剪策略来帮助缓解这个问题。

你可能感兴趣的:(联邦学习)