横向联邦学习

联邦学习

联邦学习(Federated Learnin
g, FL)概念最早由 Google 在 2016 年出 [29],原本用于解决大规模 Android 终端协同分布式机器学习的隐私问题。作为一种新兴的技术,联邦学习有机融合了机器学习、 分布式通信、以及隐私保护技术与理论。
随着全球隐私法规的强化,以及数据利用需求旺盛,自从联邦学习概念出以来,在学术界和工 业界受到广泛的关注,发展十分迅速,不仅可应用于 2C 场景⸺如用户移动设备,还推广到了 2B 场 景⸺企业组织间的敏感数据共享
与机器学习。联邦学习可以使得多个参与方(如企业、用户移动设备) 在不交换原始数据情况下,实现联合机器学习建模、训练和模型部署。简单来看,联邦学习它是一个可 隐私保护的分布式机器学习框架与算法。按照参与的各方使用数据集不同的场景,联邦学习分为三种
类别:

横向联邦学习: 各方使用的数据集样本的维度大部分是重叠的,但各方所供的数据集样本 ID

是不同的。训练过程相当于将各方收集的数据样本(记录)进行横向“累加”,通过“虚拟的” 样本扩展提高训练数据样本规模从而改进机器学习模型的性能;

纵向联邦学习: 各方使用的数据集样本 ID大部分是重叠的,但各方所供的数据集样本维度不

尽相同,即分别持有同一个实体不同属性维度的信息。训练过程相当于将各方收集的数据样本(记 录)按照 ID进行纵向的 “连接”,通过“虚拟的”样本维度的关联与拓展,增强训练模型的 预测性能;

迁移联邦学习: 各方使用的数据集样本具有高度的差异,即 ID以及样本维度仅有少部分重叠,

且只有少部分的标注数。该场景的联邦学习是一大挑战,如何在特征维度缺失的进行标签预测 与回归。

图 5-6 横向联邦学习与纵向联邦学习的示例

在企业间联合 AI建模场景中,横向联邦学习合应用在多家企业在业务较为类似,但用户群体不 同的场景;而纵向联邦学习合于多家企业业务不同,但用户群体有大部分重合的场景,如图 5-6 给出 两种类型应用示例。

联邦学习的核心思想是在保证原始数据不出本地域情况,实现多方的数据共享与联合建模。那么, 多方建模过程涉及的原始数据需进行转换,联邦学习首先将原始数据进行特征化、参数化过程保证了原 始数据“不可见”;同时通过对特征向量、参数通过差分隐私、同态加密或安全多方计算技术
避免训练 重构攻击、模型的反演攻击导致的隐私泄露。
联邦学习在工业界近年来是一大热点,国内外多家企业开展了探索,并且实现了一些商业落地 案例。例如谷歌将联邦学习应用在 Android 手机的新闻推荐上、输入法 Gboard,并推出 TensorFlow Federated 联邦学习开源框架;苹果将联邦学习应用在 iOS 13 跨设备 QuickType 键盘 “Hey Siri”的人 声分类器应用;Intel 将 TEE(可信任执行环境)技术与联邦学习进行结合;国内的微众银行为代表将联 邦学习应用在保险定价、图像检测等领域,并开源了 FATE联邦学习框架。总的来说,联邦学习的发展 仍然处于初步发展阶段,仍然面临诸多挑战,例如,如何解决参与方诚信问题,如何设计联邦学习框架 有效的激励机制,高效通信机制研究,以及探索更多联邦学习的应用场景。

小结

大数据时代,数据在流动过程中将价值发挥最大化,企业或组织间(多方)的数据共享、计算与交 换场景与需求越来越多。如何保证在数据共享实现数据价值挖掘而不泄露隐私和敏感数据(或者说满足 “合规性”)是一个关键性问题。这给传统以静态加密(比如 AES、SM4 等)为核心的数据安全技术带来了巨大的挑战。为了满足合规和数据利用的双重需求,一批前沿技术在企业内落地与发展,包括利 用数据匿名技术可在数据发布以及两方的机器学习场景的应用;通过同态加密技术保证云上数据处在“不 可见”状态(密文)仍然各类执行数据分析与操作;利用安全多方计算技术促进数据共享的多方在获得 准确的计算结果同时不泄露输入的数据与隐私;利用联邦学习技术在保证数据不出“本地域”情况下实 现联合建模。同态加密、安全多方计算、联邦学习技术在国内业界习惯将它们形象称为“可用不可见” 技术,Gartner 将这些技术统称为隐私增强计算(Privacy Enhanced Computation)类技术,并将其与 随处运营、人工智能工程化等作为 2021 年六大重要战略科技趋势。目前,隐私增强计算类技术在一些 有限场景有一些成熟的实践与落地。例如,将加法同态加密技术引入区块链领域以解决交易信息认证与 隐私保护的矛盾;将安全多方计算的两方隐私求交(PSI)技术引入泄露密码检测领域以解决检测过程 中的用户隐私问题;通过横向联邦学习在金融、图像领域扩大数据样本规模,提高模型新能。总体来说, 隐私增强计算类技术目前仍然处于初步发展阶段,由于其技术价值未来仍有巨大的研究与发展空间。

结语

随着全球相关法规的密集发布,包括欧盟 GDPR,美国 CCPA,国内的《网络安全法》,以及今年发 布的《数据安全法(草案)》、《个人信息保护法(草案)》,合规性成为了企业数据安全建设与治理 的重要驱动力。法规对企业数字化、信息化转型出了更高更严的数据安全要求⸺既要满足自身业务 的数据安全需求,同时又要遵守合规性要求。不断强化的法规给新技术带来新的机遇与需求,近年来, 数据安全领域新技术不断涌现,比如同态加密、安全多方计算、联邦学习,差分隐私等;也促进与其他 领域技术的融合与应用,比如知识图谱,流程自动化等。当然,前沿技术仍然面临诸多问题与挑战,未 来值得学术界和工业界进一步的研究与探索。

绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、数据分析实验室和 物联网安全实验室,关注云安全、容器安全、威胁情报、数据驱动安全、物联网安全和区块链等 领域。作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行 博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、 出版专业书籍等。我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先 进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
天枢实验室聚焦安全数据、AI 攻防等方面研究,以期在“数据智能”领域获得突破。
绿盟科技威胁情报中心(NSFOCUS Threat Intelligence center, NTI)是绿盟科技为落实智慧 安全 2.0 战略,促进网络空间安全生态建设和威胁情报应用,增强客户攻防对抗能力而组建的专 业性安全研究组织。其依托公司专业的安全团队和强大的安全研究能力,对全球网络安全威胁和 态势进行持续观察和分析,以威胁情报的生产、运营、应用等能力及关键技术作为核心研究内容, 推出了绿盟科技威胁情报平台以及一系列集成威胁情报的新一代安全产品,为用户供可操作的 情报数据、专业的情报服务和高效的威胁防护能力,帮助用户更好地了解和应对各类网络威胁。

参考资料

绿盟 2020 数据安全前沿技术研究报告

友情链接

GB-T 28450-2012 信息安全技术 信息安全管理体系审核指南

你可能感兴趣的:(系统安全)