本期导读
2021年世界人工智能大会 (WAIC) 于7月8-10日在上海举办,7月8日下午,主题论坛「WAIC 2021 ·隐私计算学术交流会」于上海世博展览馆隆重举行。杭州锘崴信息科技有限公司(锘崴科技)应邀出席活动并进行论文分享。
关于大会
2021年世界人工智能大会于7月8日 - 10日在上海举办,本届大会以「智联世界 众智成城」为主题,促进全球人工智能创新思想、技术、应用、人才和资本的集聚和交流,推动全球科技的创新协同,助力打造人工智能世界级产业集群。
7月8日下午,由世界人工智能大会组委会办公室指导,蚂蚁集团、机器之心和CCF YOCSEF上海学术委员会共同主办的「WAIC 2021 ·隐私计算学术交流会」于上海世博展览馆隆重举行。本次交流会内场设置有 Keynote 、思辨、论文分享三个活动模块,外场还设有开放式论文Poster专区,并邀请多位领域内顶级专家、论文作者与现场参会观众围绕安全多方计算、数据安全、联邦学习等前沿议题展开交流。杭州锘崴信息科技有限公司(锘崴科技)董事长兼CTO王爽教授应邀出席论文分享环节。
论隐私计算的重要性
当我们由信息时代逐渐迈入智能时代,中国以及全球范围内数据规模快速扩大,数据流动带来了巨大的经济效益和财富,但在将数据要素市场化、资产化的同时,数据安全以及隐私安全问题则更为突出。
7月5日,为防范国家数据安全风险,维护国家安全,保障公共利益,依据《中华人民共和国国家安全法》《中华人民共和国网络安全法》,网络安全审查办公室按照《网络安全审查办法》,对“运满满”、“货车帮”、“BOSS直聘”实施网络安全审查。为配合网络安全审查工作,防范风险扩大,审查期间“运满满”“货车帮”“BOSS直聘”停止新用户注册。此前已对“滴滴出行”启动网络安全审查。
为了解决数据流转和共享时隐私安全隐患这一长期瓶颈和行业痛点问题,学术界、产业界提出了多样化的技术解决方案,其中以联邦学习、多方安全计算(MPC)为主的隐私计算技术正发挥着重要作用。隐私计算通过密码学和软硬件技术,在保证用户隐私及数据安全、符合法律法规要求的前提下,链接多数据源数据,构建跨机构、跨领域数据网,帮助实现多方协同数据分析、学习建模等,并因此大幅释放数据价值、提升数据资源使用效率。目前,隐私计算技术已经在金融、医疗等场景中实现了落地应用,并向交通、教育、工业等领域延伸。
图1. 隐私计算各技术路线发展
但如硬件层面如何解决算力和降低成本,软件层面如何打破数据孤岛等挑战依然存在。在种种新形势下,WAIC 2021 · 隐私计算学术交流会应运而生,将联合多方共建、共议关键战略技术及核心发展路径模式,为学界专家学者和业界公司高管共同探讨隐私计算新技术、新应用场景以及未来发展趋势提供一个绝佳的平台。
锘崴科技参与活动
首先,锘崴科技董事长兼CTO王爽教授受邀参加了本次思辩环节,与现场的各位学者专家就【隐私计算:数据要素时代下的“技术解”】这一主题展开讨论。
从实际应用的角度,单一技术有本身有优劣势,而具体的应用场景是多维度、立体的。例如,临床诊断时,半诚实模型往往不如恶意模型更具有可行性。因为医疗生物数据高度敏感,当需要进行数据共享时,应尽可能的确保其保密性和隐私安全性。因此,基于不同场景,需求不同,应当选择一种或多种不同的技术。
图2. 王爽教授在思辨环节发表观点
其次,隐私计算实际应用中很重要的一点,数据的分级分类。不同等级和类型的数据对于隐私保护的需求和标准不同,而如何分级分类则是关键。有量化标准的分级分类标准,能方便使用者在实际应用时,根据不同场景和数据等级类型选择对应技术。锘崴进行了一项基于国家癌症大数据平台数据隐私风险量化评估。这一研究也是目前全国最大规模的医疗数据隐私风险评估。这一研究的结果为未来的数据分级分类量化标准的制定提供了参考。
王爽教授还出席了此次隐私计算学术交流会的论文分享环节,并介绍了一篇名为《基于安全联邦学习的全基因组关联分析框架及其在强直性脊柱炎全国多中心研究中的应用》(A novel privacy-preserving federated genome-wide association study framework and its application in identifying potential risk variants in ankylosing spondylitis) 的论文。该篇论文发表在领域内顶级期刊Briefings in Bioinformatics上,其研究团队由锘崴科技CEO郑灏博士带领。
此次报告中,王爽教授探讨了医学领域的数据隐私风险研究进展,并介绍了如何构建基于安全联邦学习的全基因组关联分析底层框架,以及全国首例通过安全联邦学习框架支持的强直性脊柱炎全国多中心研究中的应用。
在报告中,王爽教授提到,已经有多项研究显示,传统的隐私保护手段,例如,匿名化或去识别化等,已经无法满足人工智能时代所需的隐私安全保护需求,尤其对于医疗数据、基因数据这类高敏感度的数据。最常见的如重识别攻击,通过一些公开信息或数据库,能够还原出被隐去的信息,从而重新识别出个人姓名和其他身份信息。一项来自美国的研究显示,通过结合匿名的医院出院文件和选举人数据,一位美国州长的身份被重新识别出来。此外,基于生日、邮编和性别三个字段求交,大约63-87%的美国人可以被唯一确认。还有更多的研究显示,重识别攻击不止可以用来识别个体身份信息,还能确定人们的基因数据,而这远比个人身份的重识别危险,因为他们的血亲和他们拥有相似的基因,这会导致伤害和负面影响进一步蔓延。
图3. 王爽教授进行论文分享
上文中提到的研究是全国首例利用联邦学习 (Federated Learning),在带有隐私保护的情况下,进行的全国性多中心强直性脊柱炎 (AS) 全基因组关联分析 (GWAS)。在过程中,研究团队基于安全联邦学习技术开发了一个多中心GWAS分布式技术框架,iPRIVATES。通过应用该框架,实现了全国性跨多家医院、机构的AS基因组数据共享。超大的样本量使得该研究结果的可靠性、准确度等大幅提升。同时,该研究结果表明,相比于传统的中心化计算,这一分布式框架显著提升了计算效率,并且其研究结果和中心化计算无异。这意味着,类似的安全联邦学习技术框架在实际应用中具有高度可行性,也为未来的进一步研究指明了方向
该篇论文也同时展示在交流会的开放式论文Poster专区。
图4.iPRIVATES论文Poster
王爽博士个人简历
锘崴科技董事长兼CTO,安全联邦学习开拓学者。华西医院和同济大学客座教授。中组部“海外青年高层次人才”。曾任加州大学圣地亚哥分校Tenure-track教授。IEEE高级会员,国际同态加密协会创始委员,四川省生物信息学会数据共享与安全分会副会长,多项国内国际隐私机密计算标准发起人。iDASH全球隐私计算发起人,被自然杂志和 GenomeWeb多次报道。主要研究方向包含联邦学习,可信计算环境,多方安全计算,同态加密,差分隐私。他领导开发的基于TEE的跨国基因数据安全分析系统获得Intel杰出贡献奖。在国内外旗舰期刊发表著作100余篇,累计被引用3381次(2021/07 Google Scholar),2012年在全球首次提出联邦学习底层框架。担任领域内的旗舰杂志Nature Biotechnology, Nature Communication, JAMIA等的审稿人和 PLOS Genetics客座编辑, BMC Medical Genomics 特刊主编。曾主持或者参与数千万美金的NIH, PCORI, AHRQ项目。
关于锘崴科技
锘崴科技是一家国际领先的大数据隐私机密计算平台型公司。团队从2011年开始研究隐私机密计算,于2013年发表全球第1篇医疗在线联邦学习论文,底层安全联邦学习及隐私计算框架服务于多个国家级的健康网络中。公司致力于自主、安全、可控的隐私机密计算基础平台建设,实现数据“可用不可见”和“数据不动价值动”的新型计算范式,能在不暴露原始数据和模型的情况下进行多方数据协作。团队创建全球iDASH隐私计算大赛,并作为主要发起方参与多个国内外隐私计算技术标准制定。
锘崴科技旨在打造一流的大数据隐私计算平台,通过分离数据的所有权、管理权和使用权,充分实现数据安全共享和跨界有效的大数据流转,以期推动第四次产业革命。