联邦学习,为何而生?

2018 年,Facebook 因黑客入侵导致 2900 多万个用户的个人数据泄露,一下子陷入了舆论中,同时也引发了我们每个人对信息安全的思考:

我们的隐私数据是否早已泄露,而我们却毫无察觉?

 

 

随着大数据、边缘计算、大型云计算平台和各种开源框架的发展,机器学习等人工智能技术以前所未有的速度应用到各个行业。

然而,人工智能技术在为我们带来机遇的同时,也带来了新的挑战。

数据的隐私和安全引起了全世界的重视。

2018年5月欧盟发布了《通用数据保护条例》以加强对用户数据隐私保护和对数据的安全管理,同样中国也推出了相关规定限制金融数据的使用。

 

数据使用的限制使得互联网数据分散在不同企业、组织中,形成了“数据孤岛”现象,各方数据不能直接共享或者交换

因此,如何在解决“数据孤岛”问题的同时保证数据隐私和安全,成为各界最关注的事情。这正是联邦学习(Federated Learning,FL)要研究的问题。

 联邦学习,为何而生?_第1张图片

 

政府部门“数据孤岛”、数据运营商“数据孤岛”、企业“数据孤岛”示意图

(虚线表示无法流通,彼此独立)

 从国内的现状来看,数据主要掌握在政府部门、数据运营商、企业三大“数据孤岛”中。数据被独立地存储于各个“孤岛”中,使得数据的共享十分困难。

结合目前国内外的企业、组织的数据存储现状和法律法规对数据共享的限制,“数据孤岛”问题面临多个难点

1. 安全分享难,这不仅是数据管理技术的需求,还涉及信任问题。

2. 利用难,由于数据来源于不同的企业和组织,很可能在数据格式方面不统一,那么在融合时就会出现问题。

3. 传输难,即使可以交给对方或可信任的第三方,难以保证各方的传输速度及成本。

4. 定价难,数据作为一种无形资产,其价值也随着应用场景不断变化,因此数据产权难以确定、交易标的难以确定。

联邦学习提供了一种解决数据安全和“数据孤岛”问题的可行性方向

通过多方安全计算协议,密码学,以及差分隐私等相关技术,通过数据不动,模型动的思想,在保护各方数据隐私的前提下打通了孤岛,充分挖掘利用了各方数据的价值。

 联邦学习,为何而生?_第2张图片

纵向联邦学习训练示意图

 

联邦学习有如下几点优势。

1. 数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求;

2. 能够保证模型质量无损,不会出现负迁移,保证联邦模型比割裂的独立模型效果好;

3. 参与者地位对等,能够实现公平合作;

4. 能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长。

学术界,联邦学习已经逐渐成为了顶会的热门主题。

在今年几场重磅会议中,联邦学习相关的论文数量相较去年明显增多,其中IJCAI 2020有20篇,AAAI 2021共18篇 ICLR 2021共15篇。

对于工业界而言,联邦学习俨然已经成为了解决数据孤岛问题的一项利器。

很多互联网企业纷纷投入研发资源,并进行市场布局。这项技术于 2016 年被谷歌提出,在 2019 年年初被引入国内,在 2020年即已出现数十家企业提供的产品,并出现了大规模的商业应用。

从技术层面来看,联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,需要掌握跨领域的综合知识。

并且越来越多的人关注到联邦学习这个新兴技术,希望系统地掌握联邦学习的原理,并在产业应用中解决具体问题。

《联邦学习技术与实战》正是在这样的背景下撰写和出版的。

联邦学习,为何而生?_第3张图片

本书由京东科技集团风险管理中心总监彭南博,以及京东科技集团风险管理中心算法科学家王虎撰写,两位均于2012年在中科院大学获得博士学位。

彭南博在人工智能算法、风控模型等领域具有丰富的实践经验。领导团队研发联邦学习技术和产品、模型管理体系、监控体系等。

王虎则负责联邦组网过程中的算法研究和模型优化,在联邦学习产品化、探索实践的过程中积累了大量经验。

本书基于实战经验撰写,详细地介绍了相关技术的原理和实战经验。

不仅深入浅出地讲解了具体的联邦学习算法,联邦交集计算以及联邦特征工程等理论知识,同样针对实践过程中可能遇到的通信、资源不足等问题给出了优化方案。在此基础上结合丰富的产业经验,对于联邦学习与其他领域的结合场景,如何设置激励机制和定价模型等问题,也给出了详细的解答。从多个维度帮助读者解决了联邦学习是什么,怎么用的问题,具有极强的实用价值。

希望本书可以带你进入联邦学习的世界,从此轻松连接数据孤岛!

 

联邦学习,为何而生?_第4张图片

 

▊《联邦学习技术及实战

彭南博 王虎 著

  • 保护隐私安全,连接数据孤岛

本书针对产业界在智能化过程中普遍面临的数据不足问题,详细地阐述了联邦学习如何帮助企业引入更多数据、提升机器学习模型效果。互联网数据一般分布在不同的位置,受隐私保护法规限制不能共享,形成了“数据孤岛”。联邦学习像“数据孤岛”之间的特殊桥梁,通过传输变换后的临时变量,既能实现模型效果提升,又能确保隐私信息的安全。

本书介绍了联邦学习技术的原理和实战经验,主要内容包括隐私保护、机器学习等基础知识,联邦求交、联邦特征工程算法,三种常见的联邦形式,以及工程架构、产业案例、数据资产定价等。

你可能感兴趣的:(博文视点IT荐书吧)