对数据保护通常是对数据做加密或移除敏感信息,但实际上即使移除了敏感信息,有足够多的真实的信息,还是可以通过算法是找到对应的人的,如:
也就是,如果你公布一个数据集,仅仅只是移除一些ID名称,这远远是不够的,因为结合外部的一些信息是可以将数据集还原的,所以我们需要一些新的技术去保护用户的数据隐私,现在最热门的就是联邦学习。全球各地越来越多的国家出台保护用户隐私的相关法律——国外的个人数据隐私保护法,倒逼企业不断提升用户隐私保护技术,
Federated Learning,也叫Collaborative Learning,最初由谷歌在2016年提出,在国内叫联邦学习、协同学习。
联邦学习在保护隐私方面最重要的三大技术分别是:差分隐私(Differential Privacy)、同态加密(Homomorphic Encryption)和隐私保护集合交集(Private Set Intersection)。
差分隐私是用户数据加密后上传到平台服务器后,平台可以用这些加密后的数据计算出用户群体的相关特征,但无法解析某个个体的信息。
通常采用的做法是给数据加入噪声,这个噪声不是随便加的,加得太大,数据失真,加得太少,起不到保护作用,噪声是有要求的,假设数据集D,现在加入噪声M等到数据集D’,将数据集D中随意拿到一个记录,再加入噪声M得到D”,对D’和D”的数据计算结果要一样的才可以。
详细原理示例:
假设现在有一家10个员工的公司,员工想知道自己的工资水平在公司的水平,但又不想直接将自己的工资数据分享出去,所以它们找了一个第三方的人,然后让第三方的人去统计平均工资:
但如果其中有一个人知道其他八个人的工资,只有一个人的是不知道:
如果他知道平均工资,那么可以推断出那个人是45K,为了防止这种情况出现,第三方的人在数据中加入噪声,使得即使减少掉一个人计算出来的平均值也是在合理范围内
然后计算平均薪酬,这个薪酬是添加了噪声之后计算,就倒推不出那个人的工资,从而保护用户的隐私:
常用的噪音机制有指数、拉普拉斯和高斯。
差分隐私不是一个新的概念,十几年前就已经提出来了:
差分隐私有两种工作模式:Global Privacy和Local Privacy。
数据中心统一加噪声后再对外提供服务。
在用户设备本地完成模型的训练,上传权重参数,而非数据,不再需要用户把数据发送到服务器,然后在服务器上进行模型训练,而是用户本地训练,加密上权重参数,服务器端会综合成千上万的用户模型后再反馈给用户模型改进方案。
在全球范围内,Local通常更准确,更为保守,更安全的模式。
这种方式也是有缺点的:首先对于小型数据不适用;其次要加入噪声,是对数据准确度要求高的也不适用,如做异常监测的时候,你给它加个干扰项?
同态加密属于密码学领域,同态加密是一种加密形式,它允许人们对密文进行特定形式的代数运算得到仍然是加密的结果,将其解密所得到的结果与对明文进行同样的运算结果一样,从数据的角度如下图:
同态加密可以分为以下4个步骤:
同态加密很早就提出了,但直到2009年Gentry开发出首个全同态加密方案后才有显著发展:
全同态加密(Fully Homomorphic Encryption, FHE),自2009年提出经过10年的发展,已经有了很大的突破,可以分为三个阶段:
第一代方案:理想格(ideal lattice)
第一代方案其实是包含基于理想格和基于最大近似公因子问题的变种两种方案:
这一代方案缺点是密钥尺寸大、效率低下。
第二代方案:容错学习
第二代全同态加密方案通常基于(R)LWE假设,LWE全称是Learning with Eror,是有错误学习。
这一代方案计算是简单,缺点是在使用密钥交换技术时需要增加大量用于密钥交换的矩阵,从而导致公钥长度的增长。
第三代方案:特征向量
第三代是一种基于矩阵近似特征向量的全同态加密方案。
不再需要密钥交换与模转换技术
半同态加密或部分同态加密,英文简称为SWHE(Somewhat Homomorphic Encryption)或PHE(Partially Homomorphic Encryption):
乘法同态
乘法同态性表现为 E(m1)E(m2)=E(m1m2):
加法同态
加法同态性表现为 E (m1 )E(m2)=E(m1+m2 mod n):
隐私保护集合交集属于安全多方计算领域的特定应用问题,安全多方计算(Secure Multi-party Computation, SMC)是解决分布式环境下多个参与者在计算过程中的 隐私保护技术之一. 保护隐私的集合运算(Private Set Intersection, PSI)是安全多方计算的一个重要研究分支,
隐私保护集合交集允许双方私下加入他们的集合并发现他们共有的标识符,一般使用一个不经意问题的变种协议,它只标记加密的标识符而不学习任何标识符。在数据由不同管理者持有的条件下,通过 PSI 计算达到保护隐私与信息共享的双赢局面。
问题模型可以抽象为:
这种情况很像线上广告投放,线下转化的数据打通,已经公司在这么做。