隐私计算实在是有违直觉,你想打个比喻都难。
比尔盖茨刚离婚,资产锐减,而你刚加薪,月入逼近 2500,就想跟比尔盖茨比比谁有钱,但你又不想露富,不想冒险把账户余额告诉比尔盖茨,那还能比么?
你月入2800,日常花钱如麻,支付宝叮当响个不停,账目多得算不过来,你就想雇个会计帮自己算账,但又不想露富,不想把收入支出明细给会计。怎么办呢?
这要在古代,你就一点办法都没有。感谢日新月异的科技,现在可以了。有好多种算法,这些算法统称为隐私计算:既保护了隐私,又把计算给搞了。
用来在保护隐私前提下计算的,有一票算法,多数在密码学领域内,也有人工智能相关的,因为隐私保护这件事,就单独划分个小领域,叫隐私计算。
多方安全计算,是姚期智老师提出来的,姚老师乃唯一的华人图灵奖得主。姚老师为了帮助你和比尔盖茨拼富,设计了混淆电路。这混淆电路可太能干了,啥计算都搞得定,而且还混淆一下,参与计算的两方互不泄密。姚老师的成就在密码学、计算复杂性和量子计算方面。要说,姚老师年轻的时候是学物理的,后来在褚枫的影响下转投计算机,遂成一代大师,这就是爱情的力量。现在姚班弟子遍布中华创业界,硕果累累。其中华控青交是做安全多方计算的,化姚老师衣钵为商业,另一家 Conflux 是做区块链的,用DAG技术,这两家貌似是在姚老师指导下的。
还是说回混淆电路,所谓电路就是逻辑电路,只要有了与、或还有异或,那就什么都能干了,所谓图灵完备。 姚老师的这个设计非常巧妙,用逻辑电路来做运算不稀奇,用逻辑电路来做加密运算,就很新颖了。这个思路至今还是隐私计算中的顶梁柱,虚拟货币里有些零知识证明就用大量的混淆电路。仅有逻辑电路来做加密运算不够的,姚老师的混淆电路借重了另一项技术,不经意传输。
不经意传输诞生于 1981 年,是 Michael O. Rabin 发明的,他当年所设计的版本,比较初级,是这样婶儿的:你给林志玲发一条消息,但你不知道林志玲是否收到消息,只有林志玲知道自己是否收到消息,算是给你留个念想,可持续长期意淫。Rabin 是犹太人科学家,也是图灵奖获得者,但他的成就啊,太多,仿如北京春天的杨絮。人们提起他,都会说有限状态机和计算复杂性,还有算素数的方法等成果。现在我们用 Python 里的 Rabin-Miller 包中的 Rabin 那就是他。 而不经意传输,在 Rabin 的有些简介里,你都找不到。
1985 年,改进版的不经意传输出现,叫做“2选1不经意传输”。意思是,林志玲给你发两条消息,一条是 “去死”,一条是“滚”,你可以任选一条,并且得到明文消息,但志玲不知道你得到的是“去死” 还是 “滚”,而你也不知道另外一条的明文。这个协议是三个人发明的, Shimon Even, Oded Goldreich, and Abraham Lempel。 先说 Shimon Even,这位老师也是犹太人,他在哈佛毕业拿到博士学位,然后回以色列报效祖国,在以色列理工当老师。 Shimon Even 研究领域是密码学和图论,他没得到图灵奖,但是,但是,他有位好老师,名叫王浩。对,华人逻辑学家、计算机科学家,人工智能领域的鼻祖之一。王浩呢,在西南联大的老师叫金岳霖,有位同学呢,叫杨振宁。 Shimon Even 还有位好学生,就是 Oded Goldreich,Goldreich 在密码学、零知识证明等领域是大牛啊,一本厚厚的《密码学基础》,难倒了多少英雄汉。 Goldreich 也没得到图灵奖,知乎上有个帖子讨论他为啥没得图灵奖,结论是年龄太大了。Abraham Lempel 也是犹太人啦,他的主要成就在数据压缩算法 LZ7 上。
说完不经意传输,就得说“秘密共享”了,秘密共享贼重要,在安全多方计算、零知识证明里都是能打、能杀、能砍的大杀器。“秘密共享” 原理特简单,可以说是这些武器里最简单的。 公司同事张三、李四、王五三个人要算平均工资,但不想告诉彼此工资,咋办? 张三工资 2500,把工资分拆成1000、800、700三分,发送 800、700 分别给李四和王五,李四王五也对自己工资如此拆分和发送,然后各人加啊加,得到总和,再都会汇总到张三,张三一下子就算出平均值了。简单吧?但结合了密码学、多项式之后,就复杂了。
秘密共享,是 1979 年 Adi Shamir 提出的。Adi Shamir 一生成就无数,获奖无数,其中有图灵奖啦。 他就是 RSA 中的那个 A,现代密码学的鼻祖之一,真正的创始人。Adi Shamir 还是犹太人。另一位密码学家 George Blakley,也同时提出了秘密共享方案。
下面登场的是隐私计算里的超人,会飞、力大无穷,可惜是幼年超人,他的名字叫 “同态加密”。 前面那些武器,都很费劲,各种巧妙设计才能既保护隐私,又能做计算。同态加密就特别赤裸裸、特别豪横。 一句话:数据加密后,该咋算咋算,加减乘除,算完后解密,就得到了正确的结果。
死活还是打个比方吧:把米撒到粪汤里,然后把粪汤煮成热粥,再把米分离出来,神奇了,居然分离出香喷喷的大米饭了。
同态加密就有这种神奇。所以,全同态加密(就是各种运算都可以,翻来覆去算几遍都行)几乎就是无所不能,保护隐私跟玩儿似的。 可惜的是,全同态加密现在还不那么成熟,仅仅在论文和实验室中,商业应用不多。换句话说,米粪汤是能煮出大米饭,但要用欧洲的粒子加速器来当电饭锅,成本太高。
同态加密可谓隐私计算所追求的金箍棒,从RSA开始,人们就已经发现,RSA 具备乘法同态。RSA 的发明者之一,Ron Rivest 在发明了 RSA 之后,就发表了一篇文章《On data banks and privacy homomorphisms》,讨论全同态的可能性,该文中,以贷款公司的业务经营为场景,探讨在数据加密情况下,对贷款公司数据进行统计分析的可能性。 当然,Ron Rivest 此时还并不确定,全同态加密技术在世界上到底是否存在。这个问题困扰了科学家们几十年。
2008年 IBM 的科学家Craig Gentry回答了这个问题:存在。 全同态加密技术是存在的,Craig Gentry 在 《Fully Homomorphic Encryption Using Ideal Lattices》一文中给出的方案是基于理想格密码。 自此,格密码称为密码学中的新宠,一时大热,号称量子计算机攻来时最坚实的盾牌。Craig Gentry 也因此从 ACM 拿了好几个奖项。 现在呢, Craig Gentry 进了创业界,加入学术气氛最浓的区块链公司 Algorand,Algorand 虽然是公司,但学界谁也不敢轻视它,人公司老板是 Silvio Micali,2012 年图灵奖获得者,零知识证明的发明人,在公钥密码学、零知识证明、伪随机数、不经意传输等领域硕果累累。
Gentry 后来又与其他学者合作,继续推动全同态加密算法的发展,2011 年提出基于 LWE(纠错学习)的算法;2013年提出 GSW 算法;2014年CKKS算法。
再说机密计算,这个玩意吧,用来做隐私计算特好,但“安全多方计算”、“同态加密” 几位兄弟恐怕有点鄙视它。隐私计算这事吧,就仿佛程序员要防备女友出轨,常规的操作是买礼物、送花、说情话、培养感情啥的,而机密计算则是给女友上个贞操锁,特别有效,但特别粗暴。
为什么这么说呢? 机密计算吧,靠的是一个 TEE 环境,就是在 CPU 上开个小黑屋子,程序和数据进去都加密,只有这个小黑屋子才能解密,于是,多方公司互相都不愿意泄漏隐私,那就听 CPU 上这个小黑盒子的,加密后送进小黑盒子,小黑盒子对数据解密,然后运算,再加密送出。 多么简单噢!所以呢,机密计算用起来特别爽,程序员们几乎啥都不用干,但是,用了它,你就得信任那个CPU上的黑盒子。
这有点像在 ATM 机里蹲个银行员工,往外递钞票。 话说有个组织叫 OMTP,是一群电信公司、手机公司成立的帮派,就是他们,在 2006年提出了 TEE 的概念。
终于,我们要说联邦学习了,人工智能穿着丝袜亮片皮衣闪亮登场,走进了现代密码学那简陋凌乱充满爷们气息的卧室。密码学一开始是抗拒的.......10分钟后还是抗拒的.......但11分钟时发现自己已经好了。密码学欣喜发现,原来穿着盔甲带着面具口罩,不耽误事儿的,一样可以的。
2015 年,Jakub Konečný, Brendan McMahan, Daniel Ramage 三位 Google 的科学家发表文章《Federated Optimization:Distributed Optimization Beyond the Datacenter》,看,当时的名字叫 Federated Optimization 联邦优化。 他们的目的是在手机上训练模型,手机上的数据在本地,但模型参数上传云端,合并成一个大模型。 比如,一群程序员想训练一个美女照片打分模型,但又不舍得把各自女神的出浴照贡献出来,咋办?这就可以用上联邦学习,各自在本地训练一个模型,这个模型仅仅是程序员王大锤自己喜欢的美女风格,但所有参数上传后,大模型就代表了程序员整体的审美爱好,你会发现原来程序员总体上喜欢戴金链子的大妈:大家都不想努力。
联邦学习贼好用,如果有一天,机器人开始书写自己的历史,联邦学习在机器史上,应该和交换、分工、自由贸易、市场对于人类历史一样重要。
零知识证明现在可热门了,因为加密货币热,其实比特币不是加密货币,该叫数字签名货币,而 Grin,Zcash 这样的,才是真正的加密货币,因为你在链上看不到交易金额,也看不到交易地址。但是呢,根据那些密文,每台矿机都能检查交易是合法的。 输入两个 1 块钱,输出一张 2 块钱。所以,零知识证明啊,严格来说不算是隐私”计算“,是隐私”证明“。
Shafi Goldwasser, Silvio Micali 和 Charles Rackoff 三位发明了零知识证明,发表的论文是《The Knowledge Complexity of Interactive Proof-Systems》,Shafi Goldwasser 和 Silvio Micali 获得 2012 年的图灵奖。 Shafi Goldwasser 是女科学家,犹太人,她的老师也很厉害,大名鼎鼎的 Manuel Blum,布隆过滤器的 Blum。
最后说一个玩意,差分隐私。按道理讲吧,差分隐私不该算入隐私计算,因为,它就没计算啊。 所谓差分隐私的场景是这样的,还是举个例子吧。 有位大美女心情不好,在公司开总裁会时故意砸场子,公开说,现场有3个人跟我有一腿,当时会议室中有6个人,这6位道貌岸然的老总一点儿都不紧张,因为美女没说到底是谁,大家都装出无辜的样子面面相觑。这时候,总裁进来了,美女说,现在,现场有4个人跟我有一腿。 你看,总裁的小胖脸刷的白了,大喊不公平 - Lisa 你为什么这样对待我? 虽然美女没指名说总裁,公开的两次都是统计数据,但是,莫名其妙就泄密了,这就是差分隐私要解决的问题。
差分隐私怎么解决呢? 很简单,就是在统计结果中加噪音。让美女第一次说现场有3.5人跟我有一腿,总裁进来后,还是3.5人有一腿,总裁就不会暴露了。
2006 年女科学家 Cynthia Dwork 和 Frank McSherry、Kobbi Nissim、Adam D. Smith 三人一道提出了差分隐私的论文 《Calibrating Noise to Sensitivity in Private Data Analysis》。 Cynthia Dwork 除了发明差分隐私外,还是 POW 的发明人,对,就是比特币那个POW,挖矿的鼻祖是她。Cynthia Dwork 还是跆拳道黑带。 她的老师是 John Hopcroft,1986 年的图灵奖获得者。
写这篇文的时候,还没想好文章标题叫什么。刚刚,一位朋友说他们在经营“家办”业务,我憋了半天问:“啥叫家办?”
朋友传授知识:“家族办公室。”
我一下子明白了,家族成立办公室,家族和事业融合了。我想起了伊丽莎白、罗斯柴尔德、洛克菲勒这样的字眼,想起了满是狮、剑、冠、花、绶带的家徽,肃然起敬。
有钱人才有家族,穷人都是单身狗!
据报道,隐私计算市场有 1000 亿美元,可以成立家族办公室了。遂以之命名本文。