最近,我们所从事的行业领域“联邦学习”异常火热,“上云用数赋智”、“数据成为生产要素之一”、“新基建之一的大数据”……我有时候给同行和非同行讲述各行各业都需要用到我们这个技术,来保证企业生产提效过程中使用数据的安全,过程中,他们都被我感动和调动起来了,然后反过来给我提了很多可以应用的场景和潜力,说这个市场未来真的很刚需、很大,最后我也被我自己感动了。
“联邦学习”和他的朋友们
事实上,我和他们讲“联邦学习”或者讲“共享学习”(前者微众银行提的名词,后者蚂蚁金服提的名词)又或者可信计算、同态计算、隐私计算……,他们还是云里雾里。“联邦”怎么听都像是“洋货”,“共享”总是第一个反应是“单车”。这真是个好技术,估计当前都想各立山头。不管那种说辞,XX学习是一种解决数据价值流通的前沿边缘技术。
一个“新”事物,谁可以第一个立论,很有可能成为标杆。之前我看到了两篇挺有意思的文章:
第一篇是蚂蚁金服《共享学习:蚂蚁金服数据孤岛解决方案》一文较详细讲述了“共享学习”有别于“联邦学习”,原文有一段话挺有微妙的意思:
我采用小学语文的理解句子含义的方式来解析一下:
① 蚂蚁说联邦学习是谷歌提的,我不完全认同,Google 提的是 Federated Learning,中文 联邦学习 应该归功于微众银行。就像 AJ 是美国的,乔丹被老百姓认识,还真的靠“乔丹”。蚂蚁有种吃不到葡萄说葡萄酸的感觉,有没有?
② Google Federated Learning 为了解决 toC的输入法模型训练;微众 联邦学习 为了解决信贷风控toB之间的联合建模,初衷和本意不一样,但是都是为了最终解决用户隐私不泄露的安全合规问题。
③ “联邦”翻译自 Federated,源于GOOGLE,这不就是参与方平等自制的诠释吗,这点上,我觉得“联邦”比“共享”更具有意义;唯一的遗憾是这个名字算不上我国自创。
④ “共享”我觉得这个词不太乐观,共享顾名思义大家一起享受,你用了我也可以用,字面意思表达出一个东西你也可以用,我也可以用,就像共享单车,你骑了我骑,骑坏了平台来修。
⑤ 微众的联邦学习基本上基于纯软件来实现多方计算;蚂蚁共享学习加了一点基于TEE进行的计算。共享学习加了集中式共享学习是唯一比较有差异化的地方,但是加的这点东西,个人观点其实就是“安全屋”范畴的概念,只不过这间屋子和Ucloud的屋子稍有不同:这间屋子加固在Intel的芯片里面,进入这间屋子的人都需要有钥匙(加密),在屋子里面解开,然后关上门在屋子里面干活,得到一个模型,然后把人全部销毁(这听起来好可怕),最后打开屋子把模型拿出来。两个问题:1)Intel的芯片,技术在美国人手上,真的可信吗?2)核心技术知识产权掌握在美国,会不会再来一个类似安卓版权的问题?反正中兴手机已经受伤过一次。
微众谈“共享学习”
第二篇是《联邦学习Inside: 蚂蚁金服共享学习简介》,这是深圳前海微众银行股份有限公司 人工智能部副总经理陈天健在知乎上发表的,全网非常细腻地假设、叙述、论证了蚂蚁金服共享学习其实就是联邦学习的inside,原文最后一段话非常细腻:
这篇文章主要表达了,BAT三家都在搞这件事情,微众比较纯粹在做标准,蚂蚁和百度都拼盘了一下,然后取了个新的名词。虽然很含蓄,但是人家想怎么给娃取名是人家的事情,就是和你孩子长的一模一样,他非要叫“武更帅”,你也不能说他没实话嘛。况且你自己取的名字“郝帅”,其实也很土味。
以上纯粹是看到这两篇有点“打架”意思的文章,觉得好玩,也有点干货料子,所以推荐给各位客官细细品味。
立论话说回来,立论,是一个非常重要的事情,毕竟不可否认的一点是:联邦学习技术源于GOOGLE,发展在中国。希望国内几家科技公司能多占领点这方面的技术专利和知识产权。虽然行业有点火热,但是技术上还只是处于早期发展阶段,只有默默耕耘打造技术,才可能在未来整个市场占据技术制高点。
其实,我更觉得联邦学习这门技术更像另一种“迁移学习”。之前我在一次数据安全技术交流会上和富数科技CEO张伟奇聊关于他们公司如何给他们的这项技术取名,他说:联邦学习应该是更被业界所公认的一个说辞,毕竟Federated翻译过来也差不多联邦的意思,除非我们在技术理论上真的有别于目前大家谈的联邦学习。他说联邦学习最核心价值就是改变了数据流通的方式:过去流通的是“数据”,现在流通的是“数据+模型”,未来流通的只是价值、知识或者说洞见,而数据和模型都将被保护起来、各自管理。这个道理说起来很简单,古代大家即时通讯需要面对面,现在只需要将声音和图像通过在线视频传输到你touch不到的地方,这就是通过通信技术,结果都是发生信息价值的传递。
知识流通、价值流通确实是联邦学习这门技术的奥义所在,这不正是知识在人与人、人与云、云与云之间的“迁移”吗?试想,5G时代个人的流量可能十倍的增长,人月百G数据量、不断个性化服务的APP,各种对个人数据的计算也许都存在google输入法当初的隐私问题,联邦学习技术目前在国内只服务于数据源与企业机构之间,其实这个范畴还很渺小。如果安全法像GDPR一样约束一下,个人设备数据可以在本地采集,不能传到云端,那联邦学习可能是必经之路。后面一篇文章,我大概会把联邦学习如何改变手机数据的使用生态给描述一下,会给你讲述一个你可能想象不到的故事,请关注公众号“hellompc”。
“上云用数赋智”,短短6字,概况了大数据这个生态存在的意义。有时候想,汉字真乃秒也!“上云”,数据要云化管理与存储与开放;“用数”,数据存在不是本意,关键要用起来,这就需要在安全保护的前提下;“赋智”,数据最终存在的意义就是赋予各行各业以能力和智慧,这就是所谓的价值。
原文参考链接1:
https://blog.csdn.net/yunqiinsight/article/details/99827347
原文参考链接2:
https://zhuanlan.zhihu.com/p/71896430