Federated Machine Learning:Concept and Applications(论文笔记)

论文链接:https://arxiv.org/pdf/1902.04885.pdf

论文笔记

一、概述:
·AI面临两个挑战:
①数据孤岛 ②数据安全与隐私保护
·提出和发展:
△2016年Google提出联邦学习框架(the federated learning framework)
△杨强团队提出一个全面的、安全的联邦学习框架(a comprehensive secure federated learning framework)(包括:横向联邦学习、纵向联邦学习、迁移联邦学习)
△另外,建议在基于联邦机制的组织之间建立数据网络,这是一种有效的解决方案,可以在不损害用户隐私的情况下共享知识。

二、简介:
·背景:2016 is the year when artificial intelligence(AI) came of age.(AlphaGo)
`未来展望:大数据驱动AI
·面临的困难与存在问题:
①获取高质量数据——multiple types
②跨组织传输数据——数据孤岛
③数据安全——隐私泄露
·国家法律(网络安全法)——应对—— Federated Learning
·挑战:如何从法律上解决数据分割和隔离问题是当今人工智能研究人员和实践者面临的一大挑战。

三、Overview(概述):
1)Google的思想:Their main idea is to build machine learning models based on data sets that are distributed across multiple devices while preventing data leakage.(建立基于分布式数据集的机器学习模型。 跨越多个设备,同时防止数据泄漏。)

2)当前挑战:statistical challenges and improving security in federated learning(统计挑战和提高联邦学习的安全性)
(The above works all focus on on-device federated learning where distributed mobile user interactions are involved and communication cost in massive distribution, unbalanced data distribution and device reliability are some of the major factors for optimization. In addition, data are partitioned by user Ids or device Ids, therefore, horizontally in the data space. This line of work is very related to privacy preserving machine learning such as because it also considers data privacy in a decentralized collaborative learning setting.)
以上工作都集中在设备上的联合学习,其中涉及分布式移动用户交互,大规模分布的通信成本、不均衡的数据分布和设备可靠性是优化的主要因素之一。此外,数据通过用户ID或设备ID进行分区,因此,在数据空间中水平地划分数据。这一行工作与隐私保护机器学习非常相关,例如,它还考虑了分散协作学习环境中的数据隐私。

3)概念拓展:
we extend the original “federated learning” to a general concept for all privacy-preserving decentralized collaborative machine learning techniques.(我们将原来的“联合学习”扩展到了所有隐私保护的分散协作机器学习技术的一般概念上。)
具体内容:
In this article, we further survey the relevant security foundations and explore the relationship with several other related areas, such as multiagent theory and privacy-preserving data mining. In this section, we provide a more comprehensive definition of federated learning which considers data partitions, security and applications. We also describe a workflow and system architecture for the federated learning system.(我们提供了一个更全面的定义联邦学习,其中考虑了数据分区,安全性和应用程序。我们还描述了FL学习系统 的工作流和系统结构。 )

1.定义
传统方法:数据集中训练
FL方法:协作训练模型(不需要公开自己的数据)
2.隐私问题
联邦学习隐私保护技术和防泄漏方法:
1)SMC安全模型
2)差分隐私
3)同态加密
具体内容见: https://blog.csdn.net/weixin_44774630/article/details/97529260?utm_source=app

*方法具体实现过程:(暂时省略)

数据泄露(间接信息泄漏)问题及应对方法:
泄露:
①随机梯度下降(SGD)等优化算法的参数更新,没有提供任何安全保证,当与数据结构一起公开时,这些梯度的泄漏实际上可能泄漏重要的数据信息[51](插入隐藏后门)。——提出了一种新的“约束和规模”模型-中毒方法,以减少数据中毒。
推理攻击:协作机器学习系统中潜在的漏洞。敌对参与者可以推断成员身份以及与训练数据子集相关的属性——提出了梯度下降方法的一种安全变体。
其他方法:研究人员也开始考虑区块链作为促进联邦学习的平台。在[34]中,研究人员考虑了块链式联邦学习(BlockFL)的体系结构, 其中移动设备的本地学习模型更新通过利用块链进行交换和验证。它们考虑了最优块生成、网络可伸缩性和健壮性问题。

3.分类:横向(水平)联邦学习、纵向(垂直)联邦学习、迁移联邦学习
☆数据集:(I,X,Y) {I:ID space ; X:features space ; Y:label space }
△特征:
在这里插入图片描述
在这里插入图片描述!
4.联邦学习的系统架构(三种方法的架构是不同的)
1)横向联邦学习
在该系统中,具有相同数据结构的k个参与者通过参数或云服务器协作学习机器学习模型。

☆四个步骤:
• Step 1: participants locally compute training gradients, mask a selection of gradients with
encryption [51], differential privacy [58] or secret sharing [9] techniques, and send masked
results to server
;
• Step 2: Server performs secure aggregation without learning information about any participant;
• Step 3: Server send back the aggregated results to participants;
• Step 4: Participants update their respective model with the decrypted gradients.
•步骤1:参与者本地计算训练梯度,使用加密[51]、差异隐私[58]或秘密共享[9]技术屏蔽梯度,并将屏蔽结果发送给服务器
•步骤2:服务器在没有关于任何参与者的学习信息的情况下执行安全聚合
•步骤3:服务器向参与者发送聚合的结果
•步骤4:参与者更新它们各自的模型具有解密的梯度。
在这里插入图片描述
安全问题:
如果用SMC[9]或同态加密[51]进行梯度聚合,则上述结构可以防止半诚实服务器的数据泄漏。但可能在另一个安全模型中,恶意参与者在协作学习过程中训练生成的AdversarialNetwork(GAN)[29]。

2)纵向联邦学习
由于数据隐私和安全原因,A和B不能直接交换数据。以确保培训过程中数据的保密性 ,涉及第三方合作者C。在此,我们假设合作者C诚实,并不与A或B串通,但甲方和B是诚实的,但彼此好奇。
(C的安全问题:party C can be played by authorities such as governments or replaced by secure computing node such as Intel Software Guard Extensions (SGX))

☆系统由两部分组成:
·Part1:加密实体对齐。由于两家公司的用户组并不相同,所以系统使用基于加密的用户ID对齐技术,例如[38,56]来确认通信。 关于双方的用户,没有A和B暴露他们各自的数据。在实体对齐过程中,系统不会公开不重叠的用户。
·Part2:加密模型训练。在确定公共实体后,可以利用这些公共实体的数据来训练机器学习模型。训练过程可分为以下四步:
• Step 1: collaborator C creates encryption pairs, send public key to A and B;
• Step 2: A and B encrypt and exchange the intermediate results for gradient and loss calculations;
• Step 3: A and B computes encrypted gradients and adds additional mask, respectively,and B
also computes encrypted loss; A and B send encrypted values to C;
• Step 4: C decrypts and send the decrypted gradients and loss back to A and B; A and B
unmask the gradients, update the model parameters accordingly.
·步骤1:协作者C创建加密对,将公钥发送给A和B;
·步骤2:A和B加密和交换中间结果进行梯度和损失计算;
·步骤3:A和B分别计算加密梯度,并分别添加附加掩码,B还计算加密损失;A和B向C发送加密值
·步骤4:C解密并发送解密梯度和损失回到A和B;A和B打开梯度,相应地更新模型参数。
在这里插入图片描述
举例:
本文以线性回归和同态加密为例说明了训练过程。(暂时省略。。。)
要用梯度下降法训练线性回归模型,需要进行安全计算其损耗和梯度。
(论文10-11页)

3)迁移联邦学习

·为了将它的覆盖范围扩展到整个样本空间,我们引入了迁移学习。(A,B数据交集小的情况)
☆整体架构和纵向联邦学习类似,但在A,B双方交换中间结构的细节有些不同。
·具体而言,转移学习通常涉及学习特征之间的共同表示A方和B方,**并通过利用源域方中的标签,尽量减少预测目标域方的标签时的错误。**因此,AB双方在梯度计算与纵向联邦制学习情境中有不同之处:在推理时,仍然需要双方计算预测结果。

5.激励机制

为了使不同组织之间的联合学习完全商业化,需要建立一个公平的平台和激励机制[20]。
在模型建立之后, 模型的性能将在实际应用中得到体现,这种性能可以记录在永久的数据记录机制(如BlockChain——区块链)中,提供更多的数据将更好,模型的有效性取决于数据提供者对系统的贡献。

上述架构的实现不仅考虑了多个组织间协作建模的隐私保护和有效性,还考虑了如何奖励。 提供更多数据的分析,以及如何通过协商一致的机制实施激励措施。因此,联邦学习是一种“闭环”学习机制。
Federated Machine Learning:Concept and Applications(论文笔记)_第1张图片

四、相关工作

1、隐私-保护机器学习(Privacy-preserving machine learnin)

·采用安全多方计算(SMC)作为隐私保障.
·homomorphic encryption和garbled circuits、水平分区数据进行线性回归的隐私保护协议、垂直分区数据的线性回归方法、随机梯度下降(SGD)、用于Logistic回归和神经网络的隐私保护协议、同态加密的回归协议、对水平分割数据进行神经网络训练,并交换更新的参数。 采用附加同态加密来保护梯度的保密性,增强系统的安全性。

2、联合学习与分布式机器学习(Federated Learning vs Distributed Machine Learning)

·参数服务器是分布式机器学习的典型组成部分。作为一种加速训练过程的工具,参数服务器将数据存储在分布式工作节点上,通过中央调度节点分配数据和组合资源,从而更有效地训练模型
·对于水平联邦学习,工作节点表示数据所有者。它对本地数据具有完全的自主权,可以决定何时和如何加入联邦学习。
·在参数服务器中,中心节点总是控制,因此联邦学习面临着一个更加复杂的学习环境
·在模型训练过程中,联邦学习强调数据所有者的数据隐私保护
△有效的数据隐私保护措施可以更好地应对未来日益严格的数据隐私和数据安全监管环境

3、联合学习与边缘计算(Federated Learning vs Edge Computing)

·联合学习可以被视为边缘计算的操作系统,因为它提供了学习协调和安全协议。 在[69]中,作者考虑了机器学习的通用类使用基于梯度下降的方法训练的模型。 他们分析了收敛性从理论的角度来看,分布式梯度下降的界限是基于它们提出的控制算法,确定本地更新和全局参数之间的最佳权衡聚合以最小化给定资源预算下的损失函数

4、联合学习与联合数据库系统(Federated Learning vs Federated Database Systems)

·联邦数据库系统[57]是集成多个数据库单元并管理数据库的系统集成系统整体。提出联邦数据库概念以实现互操作性拥有多个独立数据库。联邦数据库系统通常使用分布式存储对于数据库单元,实际上每个数据库单元中的数据是异构的。因此,它在数据的类型和存储方面与联邦学习有许多相似之处。然而,联邦数据库系统在该过程中不涉及任何隐私保护机制彼此交互所有数据库单元对管理层完全可见系统。此外,联邦数据库系统的重点是数据的基本操作包括插入,删除,搜索和合并等,同时联合学习的目的是在保护数据隐私的前提下为每个数据所有者建立联合模型,所以数据包含的各种价值观和法律为我们提供了更好的服务。

五、应用

1.概述:
作为一种创新的建模机制,它可以在不损害这些数据的隐私和安全性的情况下,对来自多个方面的数据进行统一模型的训练,联邦学习 在销售、金融和许多其他行业中有广泛的应用。由于知识产权、隐私保护以及数据安全等因素,数据不能直接用于训练机器学习模型。

2.面临的两个问题数据堡垒 和 异构数据模型训练
①首先,为了保护数据隐私和数据安全,数据在银行、社交网站和电子购物网站之间的障碍很难打破。因此,无法直接聚合数据来训练模型。
②其次,存储在ABC三方的数据通常是异构的,传统的机器学习模型不能直接工作在异构数据上。到目前为止,这些问题还不能用传统的机器来有效地解决,这阻碍了人工智能在更多领域的推广和应用。

3.解决方法:
Federated learning and transfer learning are the key to solving these problems.
联合学习和迁移学习是解决这些问题的关键。)
①首先,通过利用联邦学习的特点,我们可以为三者建立一个不需要传输企业各方数据的机器学习模型,不仅可以完全保护数据隐私和数据安全性,还为客户提供个性化服务。
② 同时,我们可以利用转移学习来解决数据异质性问题,并突破传统人工智能技术的局限。
因此联邦学习为我们构建跨企业,跨数据提供了良好的技术支持,和大数据和人工智能的跨领域生态圈。
具体应用:①银行业(借贷问题——解决‘以贷还贷’的问题)②智慧医疗 。。。

六、企业联合学习与数据联盟

☆重要性:Federated learning is not only a technology standard but also a business model.
△发展历程:传统数据集中训练——>云计算——>联邦学习
*意义:
①当各机构占用的孤立数据不能产生理想的模型时,联合学习机制使事业单位和企业共享一个统一的模型成为可能(并且不需要数据交换)。
②联合学习还可以借助块链技术的协商机制来制定公平的利润分配规则

七、总结和前景

近年来,数据的隔离和对数据隐私的重视正成为人工智能面临的下一个挑战,但联合学习给我们带来了新的希望。它可以建立在保护本地数据的同时,为多个企业建立统一的模型,以数据安全为前提,使企业能够共同取胜。本文主要介绍了基本原理。 联邦学习的概念、体系结构和技术,并讨论了它在各种应用中的潜力。预计在不久的将来,联邦学习将打破隔阂,建立一个能够与安全共享数据和知识的社区,并根据每个参与者的贡献公平地分配利益。人工智能的效益最终会被带到我们生活的每一个角落。

你可能感兴趣的:(Federated Machine Learning:Concept and Applications(论文笔记))