联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记

联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记

摘要

今天的人工智能仍然面临着两大挑战。一是在大多数行业中,数据以孤岛的形式存在。另一个是加强数据隐私和安全。我们为这些挑战提出了一个可能的解决方案:安全联邦学习。除了2016年谷歌首次提出的联邦学习框架外,我们还引入了一个全面的安全联邦学习框架,包括水平联邦学习、垂直联邦学习和联邦迁移学习。我们提供了联邦学习框架的定义、架构和应用程序,并提供了有关该主题的现有工作的全面调查。此外,我们提出了在组织间建立基于联邦机制的数据网络,作为在不损害用户隐私的前提下实现知识共享的有效解决方案

一、引言

2016年是人工智能(AI)成熟的一年。随着AlphaGo[59]击败人类顶级围棋手,我们真正见证了人工智能(AI)的巨大潜力,并开始期待更复杂、更尖端的人工智能技术在许多应用中,包括无人驾驶汽车、医疗、金融等。如今,人工智能技术在几乎所有行业和各行各业都显示出其优势。然而,当我们回顾AI的发展,AI的发展不可避免地经历了几次起起落落。人工智能还会有下一次衰退吗?什么时候会出现,原因是什么?目前公众对人工智能的兴趣在一定程度上是由大数据的可用性驱动的:AlphaGo在2016年总共使用了30万场游戏作为训练数据,从而取得了出色的结果。

随着AlphaGo的成功,人们自然希望像AlphaGo这样的大数据驱动的人工智能能够很快在我们生活的各个方面实现。然而,现实世界的情况有些令人失望:除了少数几个行业,大多数领域只有有限或贫乏的高质量数据,使得AI技术的实现比我们想象的更加困难。通过跨组织传输数据,有可能将数据融合在一个公共站点中吗?事实上,在许多情况下,打破数据源之间的障碍是非常困难的,甚至是不可能的。一般来说,任何AI项目所需的数据都包含多种类型。例如,在人工智能驱动的产品推荐服务中,产品销售者拥有产品信息、用户购买数据,但没有描述用户购买能力和支付习惯的数据。在大多数行业中,数据以孤岛的形式存在。由于行业竞争、隐私安全、复杂的管理程序等原因,即使是同一公司不同部门之间的数据集成也面临着巨大的阻力。要整合分散在全国各地的数据和机构几乎是不可能的,或者成本是被禁止的。

与此同时,随着越来越多的大公司意识到损害数据安全和用户隐私,强调数据隐私和安全已成为一个全球性的重大问题。关于公共数据泄露的新闻引起了公共媒体和政府的极大关注。例如,最近Facebook的数据泄露事件引发了广泛的抗议[70]。作为回应,世界各国都在加强保护数据安全和隐私的法律。例如,欧盟于2018年5月25日实施的《通用数据保护条例》(GDPR)[19]。GDPR(图1)旨在保护用户的个人隐私和数据安全。它要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘权”,即用户的个人数据可以被删除或撤销。违反该法案的公司将面临高额罚款。美国和中国也在实施类似的隐私和安全措施。例如,中国于2017年颁布的《网络安全法》和《民法通则》规定,互联网企业不得泄露或篡改其收集的个人信息,在与第三方进行数据交易时,他们需要确保拟议的合同遵守法律数据保护义务。这些法规的建立显然将有助于建立一个更文明的社会,但也将对目前人工智能中常用的数据交易程序提出新的挑战。
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第1张图片
图1 GDPR:欧盟数据保护法规

具体来说,人工智能中的传统数据处理模型往往涉及简单的数据交易模型,一方收集数据并将数据传输给另一方,另一方负责清理和融合数据。最后,第三方将利用集成的数据建立模型供其他方使用。模型通常是作为服务出售的最终产品。这一传统的程序面临着上述新的数据法规的挑战。此外,由于用户可能不清楚这些模型的未来用途,这些交易违反了GDPR等法律。结果,我们面临着一个困境,我们的数据是在孤岛的形式,但在很多情况下,我们被禁止收集,融合和使用数据到不同的地方进行AI处理。如何在法律上解决数据碎片化和隔离问题是目前人工智能研究人员和从业者面临的主要挑战。

在本文中,我们概述了一种称为联邦学习的新方法,它是解决这些挑战的可能方案。我们调查了关于联邦学习的现有工作,并提出了一个全面的安全联邦学习框架的定义、分类和应用。我们将讨论如何将联邦学习框架成功地应用于各种业务。在促进联邦学习的过程中,我们希望将人工智能开发的重点从提高模型性能(目前大多数人工智能领域正在做的事情)转移到研究符合数据隐私和安全法律的数据集成方法。

二、联邦学习概述

联邦学习的概念是谷歌最近提出的[36,37,41]。他们的主要想法是建立基于分布在多个设备上的数据集的机器学习模型,同时防止数据泄漏。最近的改进集中在克服联邦学习中的统计挑战[60,77]和提高安全性[9,23]。也有研究努力使联邦学习更具个性化[13,60]。以上研究都集中在涉及分布式移动用户交互的设备上联邦学习上,大规模分布中的通信成本不平衡的数据分布设备可靠性是优化的主要因素。此外,数据是按用户id或设备id进行分区的,因此在数据空间中是水平的。这一行的工作是非常相关的隐私保护机器学习,如[58],因为它也考虑数据隐私在分散的协作学习设置。为了将联邦学习的概念扩展到组织间的协作学习场景,我们将原始的“联邦学习”扩展为所有隐私保护分散式协作机器学习技术的一般概念。在[71]中,我们对联邦学习和联邦迁移学习技术进行了初步的概述。在本文中,我们进一步调查了相关的安全基础,并探讨了与其他几个相关领域的关系,如多智能体理论和隐私保护数据挖掘。在本节中,我们将提供更全面的联邦学习定义,其中考虑了数据分区、安全性和应用程序。我们还描述了联邦学习系统的工作流程和系统架构

2.1 联邦学习定义

定义N个数据所有者{F1,…Fn},他们都希望通过合并各自的数据{D1,…Dn}来训练一个机器学习模型。传统的方法是把所有的数据放在一起,用D = D1∪…Dn去训练一个模型Msum。联邦学习系统是一个学习过程,其中数据所有者协同训练模型Mfed,其中处理任何数据所有者Fi不公开其数据Di给其他人。此外,Mfed(记为Vfed)的精度应非常接近Msum、Vsum的性能。形式上,设δ为非负实数,如果
在这里插入图片描述
我们说联邦学习算法有δ-精度损失。

2.2 联邦学习的隐私

隐私是联邦学习的基本属性之一。这需要安全模型和分析来提供有意义的隐私保证。在本节中,我们将简要回顾和比较用于联邦学习的不同隐私技术,并确定防止间接泄漏的方法和潜在挑战。

安全多方计算(SMC)。SMC安全模型自然涉及多方,在一个定义良好的仿真框架中提供安全证明,以保证完全零知识,即每一方除了自己的输入和输出之外一无所知。零知识是非常理想的,但这种理想的特性通常需要复杂的计算协议,可能无法有效地实现。在某些情况下,如果提供安全保证,部分知识披露可能被认为是可以接受的。在低安全要求的条件下,可以建立具有SMC的安全模型来换取效率[16]。最近[46]研究使用SMC框架来训练具有两个服务器和半诚实假设的机器学习模型。Ref[33]使用MPC协议进行模型训练和验证,而无需用户透露敏感数据。最先进的SMC框架之一是Sharemind[8]。Ref[44]提出了一个具有诚实多数的3PC模型[5,21,45],并在半诚实和恶意假设中都考虑了安全性。这些工作要求参与者的数据在非合谋服务器之间秘密共享。

差分隐私。另一个行业使用差分隐私[18]或k-匿名技术[63]来保护数据隐私[1,12,42,61]。差分隐私、k-匿名和多样化[3]的方法涉及在数据中添加噪声,或使用泛化方法掩盖某些敏感属性,直到第三方无法区分个体,从而使数据无法恢复以保护用户隐私。然而,这些方法的根源仍然要求数据被传输到其他地方,这些工作通常涉及准确性和隐私之间的权衡。在[23]中,作者引入了联邦学习的差分隐私方法,以便通过在培训期间隐藏客户端贡献来增加对客户端数据的保护。

同态加密。机器学习过程中还采用同态加密[53],通过加密机制下的参数交换来保护用户数据隐私[24,26,48]。与差分隐私保护不同,数据和模型本身不被传输,也不能被对方的数据猜测。因此,在原始数据几乎不可能出现泄漏。最近的研究采用同态加密来集中和训练云上的数据[77,76]。在实践中,加法同态加密[2]被广泛使用,在机器学习算法中需要进行多项式逼近来评估非线性函数,这导致了精度和隐私之间的权衡[4,35]。

2.2.1 间接的信息泄漏

联邦学习的先驱工作揭示了中间结果,比如来自随机梯度下降(Stochastic Gradient Descent, SGD)等优化算法的参数更新[41,58],但是并没有提供安全保障,这些梯度的泄漏,当与数据结构(如图像像素)一起暴露时,实际上可能会泄漏重要的数据信息[51]。研究人员考虑过这样一种情况:联邦学习系统的一个成员通过允许插入后门来学习其他人的数据来恶意攻击其他人。在[6]中,作者证明了在联合全局模型中插入隐藏后门是可能的,并提出了一种新的“约束与规模”模型中毒方法来减少数据中毒。在[43]中,研究人员发现了协作机器学习系统中的潜在漏洞,其中协作学习中不同方使用的训练数据容易受到推理攻击。他们表明,一个对抗的参与者可以推断出与训练数据子集相关的成员身份和属性。他们还讨论了抵御这些攻击的可能措施。在[62]中,作者揭示了一个与不同方之间的梯度交换相关的潜在安全问题,并提出了梯度下降方法的一个安全变体,并表明它可以容忍高达恒定比例的拜占庭工人。

研究人员也开始考虑将区块链作为促进联邦学习的平台。在[34]中,研究人员考虑了区块链联邦学习(BlockFL)架构,其中移动设备的本地学习模型更新通过利用区块链进行交换和验证。他们考虑了最优块生成、网络可伸缩性和健壮性问题。

2.3 联邦学习分类

在本节中,我们将讨论如何根据数据的分布特征对联邦学习进行分类。

矩阵Di表示每个数据所有者i持有的数据,矩阵的每一行代表一个样本,每一列代表一个特征。同时,一些数据集也可能包含标签数据。我们将特征空间表示为X,将标签空间表示为Y,用I表示样本ID空间。例如,在金融领域的标签可以是用户的信用;在营销领域,标签可能是用户的购买欲望;在教育领域,Y可能是学生的程度。特征 X, 标签 Y, 和样本Ids I构成了完整的训练数据集(I,X,Y)。数据主体的特征空间和样本空间可能不尽相同,根据特征和样本ID空间中数据在各个主体之间的分布情况,将联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习。图2显示了用于两方场景的各种联合学习框架。
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第2张图片
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第3张图片
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第4张图片

2.3.1 横向联合学习

横向联邦学习或基于样本的联邦学习是在数据集共享相同特征空间但样本不同的场景中引入的(图2a)。例如,两个区域银行可能有来自各自区域的非常不同的用户组,它们的用户交集集非常小。然而,它们的业务非常相似,所以特征空间是相同的。Ref[58]提出了一种协作式深度学习方案,参与者独立训练,只共享参数更新的子集。2017年,谷歌针对安卓手机型号更新[41]提出了横向联邦学习解决方案。在该框架中,使用Android手机的单个用户在本地更新模型参数,并将参数上传到Android云,从而与其他数据所有者共同训练集中式模型。在联邦学习框架下,引入了一种安全的聚合方案[9]来保护被聚合的用户更新的隐私。Ref[51]为模型参数聚合使用了加法同态加密,以提供针对中央服务器的安全性。

在[60]中,我们提出了一个多任务风格的联邦学习系统,允许多个站点完成独立的任务,同时共享知识和保持安全。他们提出的多任务学习模型还可以解决高通信成本掉线者和容错问题。在[41]中,作者提出构建一个安全的客户机-服务器结构,其中联邦学习系统按用户对数据进行分区,并允许在客户端设备上构建的模型在服务器站点上协作,以构建一个全局联邦模型。建立模型的过程确保了没有数据泄漏。同样,在[36]中,作者提出了提高通信成本的方法,以方便基于分布在移动客户端的数据的集中模型的培训。近年来,为了在大规模分布式训练中大大减少通信带宽,提出了一种名为深度梯度压缩[39]的压缩方法。

我们将横向联邦学习概括为:
在这里插入图片描述
安全的定义。横向联邦学习系统通常假定诚实的参与者和针对诚实但好奇的服务器的安全性[9,51]。也就是说,只有服务器可以承诺数据参与者的隐私。在这些作品中已经提供了安全证明。最近,另一种考虑恶意用户[29]的安全模型也被提出,这给隐私带来了额外的挑战。在培训结束时,通用模型和整个模型参数将向所有参与者公开。

2.3.2 纵向联邦学习

纵向联邦学习。对于垂直分割的数据,已经提出了隐私保护的机器学习算法,包括合作统计分析[15]、关联规则挖掘[65]、安全线性回归[22,32,55]、分类[16]和梯度下降[68]。最近,Ref[27,49]提出了一种纵向联邦学习方案来训练一个隐私保护的逻辑回归模型。研究了实体分辨率对学习性能的影响,并将泰勒近似应用于损失函数和梯度函数,使同态加密可以用于隐私保护计算。

纵向联邦学习或基于特征的联邦学习(图2b)适用于两个数据集共享相同的样本ID空间,但特征空间不同的情况。例如,考虑同一城市的两个不同的公司,一个是银行,另一个是电子商务公司。他们的用户集合很可能包含了该地区的大部分居民,所以他们的用户空间的交集很大。但是,由于银行记录了用户的收支行为和信用评级,而电子商务保留了用户的浏览和购买历史,因此两者的特征空间存在很大的差异。假设我们希望双方都有一个基于用户和产品信息的产品购买预测模型。

纵向联邦学习是将这些不同的特征聚合起来,并在保护隐私的情况下计算训练损失和梯度,从而协同建立一个包含双方数据的模型。在这样的联邦制机制下,每个参与方的身份和地位都是相同的,而联邦制帮助每个人建立“共同财富”战略,这就是为什么这个系统被称为“联邦制学习”。因此,在这样的系统中,我们有:
在这里插入图片描述
安全的定义。纵向联邦学习系统通常假定参与者诚实但好奇。例如,在两方的情况下,两方是不合谋的,最多其中一方受到了对手的影响。安全定义是,攻击者只能从已损坏的客户端获取数据,而不能从其他客户端获取输入和输出所显示的数据。为了方便双方之间的安全计算,有时会引入半诚实第三方(Semi-honest Third Party, STP),在这种情况下,STP假设不与任何一方串谋。SMC为这些协议[25]提供了正式的隐私证明。在学习结束时,每一方只持有与其自身特性相关联的模型参数,因此在推理时,双方还需要协作以生成输出。

2.3.3 联邦迁移学习

联邦迁移学习适用于两个数据集不仅在样本上有差异,而且在特征空间上也有差异的情况。考虑两个机构,一个是位于中国的银行,另一个是位于美国的电子商务公司。由于地理上的限制,两个机构的用户群体有一个小的交集。另一方面,由于业务的不同,双方的特性空间只有一小部分是重叠的。在这种情况下,可以应用传输学习[50]技术为联邦下的整个样本和特征空间提供解决方案(图2c)。特别的是,利用有限的公共样本集学习两个特征空间之间的公共表示,然后应用于获得只有一面特征的样本的预测。FTL是对现有联邦学习系统的一个重要扩展,因为它处理的问题超过现有联邦学习算法的范围:
在这里插入图片描述
安全的定义。联邦迁移学习系统通常涉及两方面。正如下一节将展示的那样,它的协议类似于纵向联邦学习中的协议,在这种情况下,可以在这里扩展纵向联邦学习的安全定义。

2.4 联邦学习系统的架构

在本节中,我们将举例说明联邦学习系统的通用架构。请注意,横向和纵向联邦学习系统的体系结构在设计上有很大的不同,我们将分别介绍它们。

2.4.1 横向联邦学习

横向联邦学习系统的典型架构如图3所示。在该系统中,k个具有相同数据结构的参与者在参数或云服务器的帮助下协作学习一个机器学习模型。一个典型的假设是,参与者是诚实的,而服务器是诚实但好奇的,因此不允许任何参与者的信息泄漏到服务器[51]。

联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第5张图片
图3:横向联邦学习系统的体系结构

这种体系的培训过程通常包括以下四个步骤:

  1. 参与者在本地计算训练梯度,使用加密[51]、差分隐私[58]或秘密共享[9]技术屏蔽选定的梯度,并将屏蔽结果发送到服务器;
  2. 服务器执行安全聚合而不了解任何参与者的信息;
  3. 服务器将聚合的结果返回给参与者;
  4. 参与者使用解密的梯度更新各自的模型。

通过上述步骤不断迭代,直到损失函数收敛,从而完成整个训练过程。该体系结构独立于特定的机器学习算法(逻辑回归、DNN等),所有参与者将共享最终的模型参数。

安全分析。在采用SMC[9]或同态加密[51]进行梯度聚合的情况下,证明了上述体系结构可以保护数据不被半诚实服务器泄漏。但在另一个安全模型中,它可能会受到恶意参与者在协作学习过程[29]中训练生成对抗网络(GAN)的攻击。

2.4.2 纵向联邦学习

假设公司A和公司B想联合训练一个机器学习模型,它们的业务系统都有自己的数据。另外,B公司还有模型需要预测的标签数据。由于数据隐私和安全的原因,A和B不能直接交换数据。为了保证培训过程中数据的保密性,需要引入第三方协作者C。这里我们假设合作伙伴C是诚实的,没有与A或B串通,但是A和B双方都是诚实但好奇的。可信第三方——这是一个合理的假设,因为C方可以由政府等当局扮演,或被安全计算节点(如Intel Software Guard Extensions (SGX)[7])取代。联邦学习系统由两部分组成,如图4所示。

联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第6张图片
图4:垂直联邦学习系统的架构

第1部分。加密的实体对齐。由于两家公司的用户群体不同,该系统采用基于加密的用户ID比对技术,如[38,56],对双方的普通用户进行确认,而A和B不暴露各自的数据。在实体对齐期间,系统不会公开彼此不重叠的用户。

第2部分。加密模型的训练。在确定公共实体后,我们可以使用这些公共实体的数据来训练机器学习模型。培训过程可分为以下四个步骤(如图4所示):

  1. 协作者C创建加密对,将公钥发送给A和B;
  2. A和B加密和交换梯度和损耗计算的中间结果;
  3. A和B分别计算加密梯度并添加额外的掩码,A和B也计算加密损失;A和B向C发送加密值;
  4. C解密并将解密后的梯度和损失发送回A和B;A和B解除渐变,相应更新模型参数。

这里我们以线性回归和同态加密为例说明训练过程。为了用梯度下降法训练线性回归模型,我们需要安全计算其损失和梯度。假设学习速率η,正则化参数λ,数据集{xi的A次方}i∈DA, {xi的B次方,yi}i∈DB,模型参数ΘA,ΘB分别对应xi的A次方, xi的B次方的特征空间,训练目标为:
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第7张图片
表1 纵向联邦学习的训练步骤:线性回归
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第8张图片
表2:纵向联邦学习的评价步骤:线性回归
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第9张图片
具体步骤见表1和表2。在实体对齐和模型训练时,A和B的数据保持在局部,训练中的数据交互不会导致数据隐私泄露。注意,对C的潜在信息泄漏可能会被视为或不被视为隐私侵犯。在这种情况下,为了进一步防止C从A或B学习信息,A和B可以通过添加加密的随机掩码进一步向C隐藏它们的梯度。因此,在联邦学习的帮助下,双方协同实现了共同模型的训练。因为在训练过程中,每一方接收到的损失和梯度与在没有隐私约束的情况下将收集到的数据共同构建一个模型所接收到的损失和梯度是完全相同的,即该模型是无损的。该模型的效率取决于加密数据的通信代价和计算代价。在每次迭代中,A和B之间发送的信息随着重叠样本的数量而变化。因此,采用分布式并行计算技术可以进一步提高算法的效率

安全分析表1所示的训练协议没有向C透露任何信息,因为C学习到的都是掩码梯度,且掩码矩阵的随机性和保密性保证为[16]。在上面的协议,A组每一步学习其梯度,但这是不够的一个学习任何信息从B根据方程8,因为标量积协议的安全性是建立在无法在超过n个未知数中解n个方程的基础上的[16,65]。这里我们假设样本的数量NA比nA大得多,其中NA是特征的数量。同样,B组也无法从A组处获得任何信息,因此证明了协议的安全性。注意,我们假设双方都是半诚实的。如果是恶意的,通过伪造输入来欺骗系统,如A组只提交一个非零输入,且只有一个非零特征,则可以知道该样本中该特征的ui的B次方值。它仍然不能告诉xi的B次方或者ΘB,并且这种偏差将扭曲下一次迭代的结果,警告另一方将终止学习过程。在训练过程结束时,每一方(A或B)都不关心另一方的数据结构,只获得与自己特征相关的模型参数。在推理时,双方需要协同计算预测结果,其步骤如表2所示,但仍不会导致信息泄漏。

2.4.3 联邦迁移学习

假设在上面的纵向联合学习的例子,A组和B组只有一个非常小的重叠的标签样本和我们有兴趣学习A组所有数据集的标签。到目前为止,上述部分中描述的体系结构仅适用于重叠数据集。为了将其覆盖范围扩大到整个样本空间,我们引入了迁移学习。这并没有改变图4所示的总体架构,而是改变了A和B双方交换的中间结果的细节。具体而言,迁移学习通常涉及学习A和B双方特征之间的共同表示,并通过利用源域方(在本例中为B)中的标签来最小化预测目标域方的标签的错误。因此对梯度进行计算A和B双方不同于纵向联合学习场景。在推理时,仍然需要双方计算预测结果。

2.4.4 激励机制

激励机制。为了使不同组织间的联邦学习完全商业化,[20]需要一个公平的平台和激励机制。模型建立后,模型的性能会在实际应用中体现出来,这种性能可以记录在永久的数据记录机制(如区块链)中。提供更多数据的组织会更好,模型的有效性取决于数据提供者对系统的贡献。这些模型的有效性基于联邦机制分配给各方,并继续激励更多的组织加入数据联邦。

上述体系结构的实现不仅考虑了多个组织之间的隐私保护协作建模的有效性,还考虑了如何奖励贡献更多数据的组织,以及如何通过共识机制实现激励。因此,联邦学习是一种“闭环”学习机制。

三、相关工作

联邦学习使多方能够协作构建机器学习模型,同时保持他们的私人训练数据的私密性。联邦学习作为一种新技术,具有多个独创性线索,其中一些根源于现有领域。下面我们将从多个角度解释联邦学习与其他相关概念之间的关系。

3.1 机器学习的隐私保护

联邦学习可以被认为是隐私保护分步式协同机器学习,因此它与多方隐私保护机器学习紧密相关。过去在这一领域进行了许多研究。例如,Ref[17,67]提出了用于垂直分区数据的安全多方决策树算法。Vaidya和Clifton针对垂直分区数据提出了安全关联挖掘规则[65]、安全k-means[66]、朴素贝叶斯分类器[64]。Ref[31]提出了一种用于水平分区数据关联规则的算法。安全支持向量机算法被开发用于垂直分区数据[73]和水平分区数据[74]。Ref[16]提出了用于多方线性回归和分类的安全协议。文献[68]提出了安全的多方梯度下降方法。上述著作均采用了安全多方计算(SMC)[25,72]来保证隐私。

Nikolaenko等人[48]利用同态加密实现了对水平分割数据的线性回归的隐私保护协议,Yao的乱码电路和Ref[22,24]提出了对垂直分割数据的线性回归方法。这些系统直接解决了线性回归问题。Ref[47]用随机梯度下降(SGD)解决了这个问题,他们还提出了用于逻辑回归和神经网络的隐私保护协议。最近,提出了一个三服务器模型的后续工作[44]。Aono等人提出了一种使用同态加密的安全逻辑回归协议。Shokri和Shmatikov[58]提出了用更新参数交换水平分割数据的神经网络训练方法。Ref[51]采用了加法同态加密,保护了梯度的私密性,增强了系统的安全性。随着深度学习研究的不断深入,保护隐私的神经网络推理也受到了广泛的研究兴趣[10,11,14,28,40,52,54]。

3.2 联邦学习vs分布式机器学习

乍一看,横向联邦学习有点类似于分布式机器学习。分布式机器学习涵盖了训练数据的分布式存储、计算任务的分布式操作、模型结果的分布式分布等诸多方面。参数服务器[30]是分布式机器学习中的一个典型元素。参数服务器作为加速训练过程的工具,将数据存储在分布式工作节点上,通过一个中央调度节点分配数据和计算资源,从而提高模型的训练效率。对于水平联合学习,工作节点代表数据所有者。它对本地数据有完全的自主权,可以决定何时以及如何加入联邦学习。在参数服务器中,中心节点始终是控制节点,因此联邦学习面临更复杂的学习环境。其次,联邦学习在模型训练过程中强调对数据所有者的数据隐私保护。有效的数据私隐保护措施可以更好地应对未来日益严格的数据私隐和数据安全监管环境。

与分布式机器学习设置一样,联邦学习也需要处理Non-IID数据。在[77]中表明,对于non-iid局部数据,联邦学习的性能会大大降低。作者提出了一种新的方法来解决类似于迁移学习的问题。

3.3 联邦学习vs边缘计算

联邦学习可以看作是边缘计算的操作系统,因为它提供了协调和安全的学习协议。在[69]中,作者考虑了使用基于梯度下降方法训练的通用机器学习模型。他们从理论的角度分析了分布梯度下降的收敛界,并在此基础上提出了一种控制算法,该算法在给定资源预算的情况下确定局部更新和全局参数聚合之间的最佳权衡,从而使损失函数最小化

3.4 联邦学习vs联邦数据库系统

联邦数据库系统[57]是集成多个数据库单元并作为一个整体管理集成系统的系统。为了实现与多个独立数据库的互操作,提出了联邦数据库的概念。联邦数据库系统通常对数据库单元使用分布式存储,实际上每个数据库单元中的数据都是异构的。因此,在数据的类型和存储方面,它与联邦学习有许多相似之处。但是,联邦数据库系统之间的交互过程中不涉及任何隐私保护机制,所有数据库单元对管理系统是完全可见的。此外,联邦数据库系统的重点是数据的插入、删除、搜索、合并等基本操作,而联邦学习的目的是在保护数据隐私的前提下,为每个数据所有者建立一个联合模型。这样数据所包含的各种价值观和规律就能更好地为我们服务。

四、应用

联邦学习作为一种创新的建模机制,可以在不损害数据隐私和安全性的情况下,对多方数据进行统一模型训练,在销售、金融和许多其他行业有很好的应用前景。由于知识产权、隐私保护和数据安全等因素,数据不能直接聚合用于训练机器学习模型

以智能零售为例。其目的是利用机器学习技术为客户提供个性化的服务,主要包括产品推荐和销售服务。智能零售业务涉及的数据特征主要包括用户购买力、用户个人偏好和产品特性。在实际应用中,这三种数据特性很可能分散在三个不同的部门或企业中。例如,从用户的银行存款中可以推断出用户的购买力,从用户的社交网络中可以分析用户的个人偏好,而电子商店可以记录产品的特征。在这种情况下,我们将面临两个问题。首先,为了保护数据隐私和数据安全,银行、社交网站、电子购物网站之间的数据壁垒很难打破。因此,不能直接聚合数据来训练模型。其次,三方存储的数据通常是异构的,传统的机器学习模型不能直接处理异构的数据。目前,传统的机器学习方法并没有有效地解决这些问题,阻碍了人工智能在更多领域的推广和应用。

联邦学习和迁移学习是解决这些问题的关键。首先,利用联邦学习的特点,在不导出企业数据的情况下,构建三方机器学习模型,既能充分保护数据隐私和数据安全,又能为客户提供个性化、有针对性的服务,实现互利共赢。同时,我们可以利用迁移学习解决数据异构问题,突破传统人工智能技术的局限性。因此,联邦学习为我们构建一个跨企业、跨数据、跨领域的大数据与人工智能生态圈提供了良好的技术支持

可以使用联邦学习框架进行多方数据库查询,而无需公开数据。例如,假设在金融应用程序中,我们感兴趣的是检测多方借款,这是银行业的一个主要风险因素。当某些用户恶意地从一家银行借钱来支付另一家银行的贷款时,就会发生这种情况。多党借款对金融稳定是一种威胁,因为大量此类非法行为可能导致整个金融体系崩溃。为了在不向银行A和银行B之间相互公开用户列表的情况下找到这些用户,我们可以利用联邦学习框架。特别地,我们可以使用联邦学习的加密机制,对各方的用户列表进行加密,然后取联邦中加密列表的交集。最终结果的解密给出了多方借款人的列表,而没有将其他“好”用户暴露给另一方。正如我们将在下面看到的,这个操作对应于纵向联邦学习框架。

智能医疗保健是另一个我们预计将从联邦学习技术的兴起中大大受益的领域。疾病症状、基因序列、医疗报告等医疗数据非常敏感和私密,但医疗数据难以收集,且存在于孤立的医疗中心和医院。数据源的不足和标签的缺乏导致机器学习模型性能不理想,成为当前智能医疗的瓶颈。我们设想,如果所有医疗机构联合起来,共享它们的数据,形成一个大型医疗数据集,那么在这个大型医疗数据集上训练的机器学习模型的性能将显著提高。联邦学习与迁移学习相结合是实现这一愿景的主要途径。迁移学习可以用来填补缺失的标签,从而扩大可用数据的规模,进一步提高训练模型的性能。因此,联邦迁移学习将在智能医疗的发展中发挥关键作用,并可能将人类的医疗保健带到一个全新的水平。
联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记_第10张图片
图5:数据联盟为区块链分配利益

五、联邦学习和企业数据联盟

联邦学习不仅是一种技术标准,也是一种商业模式。当人们意识到大数据的影响时,他们首先想到的是将数据聚合在一起,通过远程处理器计算模型,然后下载结果以供进一步使用。云计算就是在这种需求下应运而生的。然而,随着数据隐私和数据安全的日益重要,以及企业利润和数据之间的关系越来越密切,云计算模型受到了挑战。然而,联邦学习的商业模式为大数据的应用提供了新的范式。当各个机构所占用的孤立数据无法产生理想的模型时,联邦学习机制可以使机构和企业共享一个统一的模型,而不需要进行数据交换。此外,联邦学习可以利用区块链技术的共识机制制定公平的利润分配规则。数据拥有者,无论他们拥有多大的数据,都将有动力加入数据联盟并赚取自己的利润。我们认为,建立数据联盟的业务模型和建立联合学习的技术机制应该一起进行。我们还将制定各个领域的联邦学习标准,以便尽快投入使用。

六、总结与展望

近年来,数据的隔离和对数据隐私的重视成为人工智能的下一个挑战,但联邦学习给我们带来了新的希望。可以在保护本地数据的同时,为多个企业建立统一的模型,以数据安全为前提,使企业共同取胜。本文一般介绍了联邦学习的基本概念、体系结构和技术,并讨论了它在各种应用中的潜力。预计在不久的将来,联合学习将打破行业之间的壁垒,建立一个数据和知识可以安全共享的社区,并根据每个参与者的贡献公平分配收益。人工智能的红利最终将被带到我们生活的每个角落。

你可能感兴趣的:(人工智能)