隐私计算基础组件系列-概述

一 背景

隐私保护

近年来,随着大数据与人工智能的盛行,针对个人的个性化的推荐技术的不断发展,人们在享受便利的同时,也深深的感觉到无处不在的监控与监视,比如

  • 刚刚浏览了一个网站的商品,当去其他网站访问的时候就会推荐类似的产品;
  • 刚刚搜索了某件商品,在很多其他的场景中都会给你推荐。

这种体验,提供了一些便利,刚开始大家都感觉互联网非常智能化,但是如果仔细想想,就感觉自己的网上进行裸奔,你做了什么,别人都是一清二楚,个人信息毫无隐私可言,如果用这些信息进行诈骗等,会造成严重的损失,细思极恐。

不过随着广大用户对于个人隐私的重视程度不断加强,以及法律法规的不断完善,针对个人隐私的保护提出了更高的要求,什么样的数据可以采集、收集与使用,如何使用都是一个比较敏感的问题。十三届全国人大常委会第三十次会议表决通过了《中华人民共和国个人信息保护法》,并与2021年11月1日起施行。确立个人信息保护原则、规范处理活动保障权益、禁止“大数据杀熟”规范自动化决策、严格保护敏感个人信息、赋予个人充分权利等。新规施行后,违法的主体将最高可处五千万以下或者上一年度营业额百分之五以下的罚款。

鉴于上述情况,近年来隐私计算技术被不断的提及,源于其有优秀的数据保护作用,使得**“数据不出域、数据可用不可见、数据可算不可见”**,限定了数据的使用场景,防止了数据的泄露,而引起了业界的热捧。

那么如何学习隐私计算呢?笔者认为这门技术是门综合性非常强的领域,涉及到众多方向,比如密码学、数学、大数据、实时计算、高性能计算、分布式、传统机器学习框架与算法,深度学习框架与算法等等,整体技术非常复杂,对于从业者的要求极高。根据目前市场上隐私计算的主要相关技术特性,可分为四大方向与五大基座::

隐私计算基础组件系列-概述_第1张图片

《隐私计算基础组件》系列文章会和大家一起介绍下基座二:隐私计算的基础技术,本章概要介绍下隐私计算基础组件,后续章节会逐一介绍各个技术点。

二 隐私计算加密组件方案概述

目前隐私计算的主流的加密方案如下:

  • 同态加密 Homomorphic Encryption

  • 秘钥分享 Secret Sharing

  • 混淆电路Garbled Circuit

  • 差分隐私Differential Privacy

  • 不经意传输 oblivious transfer

  • 零知识证明 zero-knowledge proof

三 同态加密

同态加密(Homomorphic Encryption, HE)是指满足密文同态运算性质的加密算法,即数据经过同态加密之后,对密文进行特定的计算,得到的密文计算结果在进行对应的同态解密后的明文等同于对明文数据直接进行相同的计算,实现数据的“可算不可见”。同态加密的实现效果如图1所示。

隐私计算基础组件系列-概述_第2张图片

​ 图1:同态加密原理

四 密钥分享

密钥分享的基本思路是将每个数字 x拆散成多个数x1、x2、…….、xN,并将这些数分发到多个参与方那里。

然后每个参与方拿到的都是原始数据的一部分,一个或少数几个参与方无法还原出原始数据,只有大家把各自的数据凑在一起时才能还原真实数据。计算时,各参与方直接用它自己本地的数据进行计算,并且在适当的时候交换一些数据(交换的数据本身看起来也是随机的,不包含关于原始数据的信息),计算结束后的结果仍以secret sharing的方式分散在各参与方那里,并在最终需要得到结果的时候将某些数据合起来。这样的话,密钥分享便保证了计算过程中各个参与方看到的都是一些随机数,但最后仍然算出了想要的结果。

隐私计算基础组件系列-概述_第3张图片

例子:z = X + YY

隐私计算基础组件系列-概述_第4张图片

五 差分隐私

设想一个受信任的机构持有涉及众多人的敏感个人信息(例如医疗记录、观看记录或电子邮件统计)的数据集,但想提供一个全局性的统计数据。这样的系统被称为统计数据库。但是,提供有关数据的综合性统计也可能揭示一些涉及个人的信息。事实上,当研究人员链接两个或多个分别无害化处理的数据库来识别个人信息时,各种公共记录匿名化的特殊方法都失效了。而差分隐私就是为防护这类统计数据库脱匿名技术而形成的一个隐私框架。

隐私计算基础组件系列-概述_第5张图片

至今为止,比较知名的采用差分隐私的应用如下:

  • 美国人口普查局,展示通勤模式。

  • Google的RAPPOR,用于遥测,例如了解统计劫持用户设置的恶意软件(RAPPOR’s open-source implementation)。

  • Google,分享历史流量统计信息。

  • 2016年6月13日,苹果公司宣布其在iOS 10中使用差异隐私,以改进其虚拟助理和建议技术,[3]

  • 在数据挖掘模型中使用差异隐私的实际表现已有一些初步研究。[4]

六 混淆电路

混淆电路对于复杂计算的局限比较大。

混淆电路(Garbled Circuit),参与双方通过传输加密电路实现安全计算。理论上各种计算都可以用这种方法实现。对于各种纯粹由位运算(就是AND、OR、XOR这些)组成的算法(如比较操作或AES加密),GC效率是比较高的。但有一个问题是,即便一些常见的算术操作(如乘法、乘方等),电路也非常复杂,这意味着很多常见算法GC应付起来都很吃力。比如下面是两位整数的乘法电路,我们平时用的都是32位甚至64位乘法,还包括浮点运算等,直接用GC解决,效率是不敢恭维的。而现实生活中很多常用的算法,如目前比较火的机器学习深度学习算法包含了大量的浮点数/定点数乘法、除法、指数运算等等,纯靠GC是不能指望的。

七 番外篇

个人介绍:杜宝坤,隐私计算行业从业者,从0到1带领团队构建了京东的联邦学习解决方案9N-FL,同时主导了联邦学习框架与联邦开门红业务。
框架层面:实现了电商营销领域支持超大规模的工业化联邦学习解决方案,支持超大规模样本PSI隐私对齐、安全的树模型与神经网络模型等众多模型支持。
业务层面:实现了业务侧的开门红业务落地,开创了新的业务增长点,产生了显著的业务经济效益。
个人比较喜欢学习新东西,乐于钻研技术。基于从全链路思考与决策技术规划的考量,研究的领域比较多,从工程架构、大数据到机器学习算法与算法框架均有涉及。欢迎喜欢技术的同学和我交流,邮箱:[email protected]

你可能感兴趣的:(隐私计算,安全,机器学习,同态加密)