联邦学习在保护隐私方面的三大技术

联邦学习在保护隐私方面的三大技术
联邦学习在保护隐私方面的三大技术:差分隐私(Differential Privacy)、同态加密(Homomorphic Encryption)、隐私保护集合交集(Private Set Intersection)。

差分隐私:用户私密数据加密后上传到平台,平台利用这些加密后的数据可以计算出用户群体的相关特征,但是无法解析某个个体的信息。
常用方法:给数据加合适的噪声,假设数据集D,现在加入噪声M等到数据集D’,将数据集D中随意拿到一个记录,再加入噪声M得到D”,对D’和D”的数据计算结果要一样的才可以。

例子:假设一个宿舍有六个人英语期末考试成绩在宿舍的水平,但是不想直接说出自己的分数怕丢人,于是找第三方可信的人去统计平均成绩,如果现在有一个人知道其它四个人的成绩,有一个不知道,然后就可以通过平均值计算出另外一个人的成绩,为了防止这种情况,第三方就可加入噪声(具体做法:删除一人成绩,随机选择一个数字加入进去使平均成绩在适当的范围),这样就保护了用户的隐私。

差分隐私分为两种:Global Privacy、Local Privacy.
Global Privacy:数据中心加噪音后在对外提供服务。
Local Privacy.用户本地加噪音训练,再上传给数据中心,再对外提供服务。
优点:在全球范围内,Local通常更准确,更为保守,更安全的模式。
缺点:首先对于小型数据不适用;其次要加入噪声,是对数据准确度要求高的也不适用,如做异常监测的时候,你给它加个干扰项?

同态加密:属于密码学领域,是一种加密算法,它允许对密文进行特定的运算后仍然是加密后的结果,将其解密所得到的结果与对明文进行同样的运算结果一样。

同态加密可以分为四个步骤:
参考https://www.ichdata.com/federated-learning.html
密钥生成算法:Keygen就是秘钥生成算法,它生成了秘钥EncKey和解密算法Deckey
加密算法:用秘钥算法生成的的秘钥Enckey对数据Plaintext做加密Encryption,生成加密的Cliphertext
计算算法:对加密数据Cliphertext做处理结算
解密算法:就是DecKey,可以将加密数据Cliphertext还原成Plaintext

同态加密分为全同态加密、半同态加密
全同态加密(Fully Homomorphic Encryption, FHE),自2009年提出经过10年的发展,已经有了很大的突破,可以分为三个阶段:
第一代方案:理想格(ideal lattice)
第一代方案其实是包含基于理想格和基于最大近似公因子问题的变种两种方案:

基于理想格(ideal lattice)的方案:Gentry 和 Halevi 在 2011 年提出的基于理想格的方案可以实现 72 bit 的安全强度,对应的公钥大小约为 2.3 GB,同时刷新密文的处理时间需要几十分钟。
基于整数上近似 GCD 问题的方案:Dijk 等人在 2010 年提出的方案(及后续方案)采用了更简化的概念模型,可以降低公钥大小至几十 MB 量级。
这一代方案缺点是密钥尺寸大、效率低下。

第二代方案:容错学习
第二代全同态加密方案通常基于(R)LWE假设,LWE全称是Learning with Eror,是有错误学习。

BV方案(Brakerski-Vaikuntanathan):2011 年,Brakerski 和 Vaikuntanathan基于 LWE 与 RLWE 分别提出了全同态加密方案,其核心技术是再线性化和模数转换。他们还提出了循环安全的类同态加密方案,但由于不能自举,所以达不到全同态。
BGV方案(Brakerski-Gentry-Vaikuntanathan ):依次使用模数转换能够很好的控制噪音的增长,层次型全同态加密可以同态计算任意多项式深度的电路,从而在实际应用中无需启用计算量过大的自举。
这一代方案计算是简单,缺点是在使用密钥交换技术时需要增加大量用于密钥交换的矩阵,从而导致公钥长度的增长。

第三代方案:特征向量
第三代是一种基于矩阵近似特征向量的全同态加密方案。

GSW方案:Gentry 等人利用“ 近似特征向量”技术,设计了一个无需计算密钥的全同态加密方案。
此后很多方案都是基于GSW的优化。
不再需要密钥交换与模转换技术

半同态加密
半同态加密或部分同态加密,英文简称为SWHE(Somewhat Homomorphic Encryption)或PHE(Partially Homomorphic Encryption):
乘法同态
乘法同态性表现为 E(m1)E(m2)=E(m1m2):
RSA算法:RSA 算法是建立在因子分解困难性假设基础上的公钥加密算法
ElGamal算法:ElGamal算法建立在计算有限域上离散对数困难性假设基础上
加法同态
加法同态性表现为 E (m1 )E(m2)=E(m1+m2 mod n):
Paillier:建立在合数模的高阶剩余计算困难性假设基础上

PSI全称隐私保护集合交集
PSI全称隐私保护集合交集(Private Set Intersection, PSI),是指持有数据的两方能够计算得到双方数据集合的交集部分,而不暴露交集以外的任何数据集合信息。

参考:
https://www.ichdata.com/federated-learning.html

你可能感兴趣的:(联邦学习,深度学习)