SecureBoost: A Lossless Federated Learning Framework论文笔记

摘要

保护用户隐私是机器学习中的一个重要问题,2018年5月欧盟推出的《通用数据保护条例》(General Data protection Regulation,简称GDPR)就是明证。GDPR旨在让用户对自己的个人数据有更多的控制权,这激发了我们探索在不侵犯用户隐私的情况下共享数据的机器学习框架。为了实现这一目标,在本文中,我们提出了一种新的基于联邦学习的无损隐私保护树增强系统SecureBoost。该联合学习系统允许一个学习过程在多个参与方之间联合进行,这些参与方具有部分相同的用户样本,但具有不同的特性集(纵向联邦学习),这些特性集与垂直分区的虚拟数据集相对应。SecureBoost的一个优点是,它提供了与非隐私保护方法相同的准确性,同时不会泄露每个私有数据提供者的信息。我们从理论上证明了SecureBoost框架与其他将数据带到一个地方的非联邦梯度树增强算法一样准确。此外,除了安全性的证明之外,我们还讨论了使协议完全安全所需的内容。

引言

在本文中,我们考虑了多方协作建立他们的机器学习模型的一般设置,同时保护了用户隐私和数据机密性。我们的设置如图2所示。
SecureBoost: A Lossless Federated Learning Framework论文笔记_第1张图片
我们考虑一组数据参与方,每个参与方持有自己的一部分数据。我们可以将位于不同各方的数据可视化为一个大数据表的一个小块,这个大数据表是通过将不同各方的数据进行合并得到的。则双方的数据具有如下属性:

  1. 对大数据表进行垂直分割,使数据在特征维度上被各方分割;
  2. 只有一个数据提供者拥有标签信息;
  3. 用户在不同的方面有部分重叠

本文的目标:

我们的目标是允许各方为某个指定的标签建立一个预测模型,而不允许任何一方获取其他方数据的任何信息。

本文的优势:

  1. 与大多数现有的关于隐私保护的数据挖掘和机器学习的工作相比,我们的设置的复杂性显著增加。与水平分割数据的情况不同,上述设置需要更复杂的机制来分解各方的损失函数。
  2. 在所有各方的每个模型构建过程中,只有一个数据提供者拥有标签信息。它要求我们提出一个安全的协议来指导学习过程,而不是在所有各方之间显式地共享标签信息。
  3. 数据保密性和隐私方面的考虑防止了各方在构建模型时暴露自己的用户,而这些用户在组中并不常见。因此,实体对齐也应该以足够安全的方式进行。

本文提出了一种新的端到端私有树boosting算法和框架SecureBoost,以实现联邦环境下的机器学习。与以前的联邦学习框架在用户维度上拆分数据不同,**我们的框架确保当数据在特征维度上的不同方面拆分时完成协作模型构建。**我们的联合学习框架分两步操作。首先,我们发现在隐私保护约束下双方的共同用户。然后,我们协作学习一个共享的分类或回归模型,而不向对方泄露任何用户信息。我们的主要贡献总结如下:

  • 我们正式定义了一个新的问题,在联邦学习的设置中,在垂直分区的数据上,保护隐私的机器学习。
  • 我们提出了一种方法,为每一方协作训练一个高质量的树增强模型(xgboost),同时在多方之间保持训练数据的机密性。我们在没有可信的第三方参与的情况下完成了这个机器学习过程。
  • 最后,也是最重要的,我们证明了我们的方法是无损的,因为它与任何将所有数据集中到一个中心位置的集中式非隐私保护方法一样准确。
  • 此外,除了安全证明之外,我们还讨论了使协议完全安全所需的内容。

相关工作

现有的关于保护隐私的机器学习的文献大致涉及两个目标:用于学习模型或作为现有模型的输入的数据的隐私。为了保护用于学习模型的数据的隐私,in (Shokri and Shmatikov 2015;Abadi et al。2016),作者提出利用差异隐私学习深度学习模型。作为最流行的隐私保护技术之一,差分隐私(Dwork 2008)通过向原始数据集注入噪声来保护敏感数据,从而将单个记录中泄露的信息量最小化。尽管差异隐私确保了识别单个记录的概率很低,仍然存在泄漏的可能性,这违反了GDPR的要求。解决上面的问题,谷歌引入联合学习框架将模型训练每个移动终端(通力ˇcn没有et al。2016)。通过禁止数据的传输,达到了隐私保护的目的。另一种隐私保护技术主要集中在推理阶段,而不是训练阶段。微软提出了一个加密的深度学习框架,CryptoNets (Gilad-Bachrach等人)。2016)基于同态加密,使训练好的神经网络对加密数据进行加密预测。然而,它必须牺牲准确性来获得安全性。在(Rouhani, Riazi, Koushanfar 2017)中,提出了另一种基于深度安全的框架,利用Yao’s Garbled Circuit (GC)协议对加密数据安全进行深度学习执行。虽然它不涉及实用和隐私之间的权衡,但它的效率很低。
以上所有方法都是为水平分区数据设计的,这些数据的提供者为不同的实体记录相同的特性。我们考虑一个如图2所示的垂直数据分区,在该分区中,多个参与方在不同的站点上记录不同的特性。与水平分区(假定集成发生在数据样本上)不同,垂直分区在一组公共用户上构建模型。如何协作构建模型是一个开放的问题。之前的一些工作讨论了在垂直分区数据上的隐私保护决策树(Vaidya和Clifton 2005;Vaidya et al,2008)。然而,他们提出的方法必须揭示给定属性上的类分布,这将导致潜在的安全风险。此外,它们只能处理离散的数据,这对于真实的场景来说是不太实际的。相比之下,我们的方法保证了对数据的更安全的保护,可以很容易地应用于连续数据。Patrini等人提出了一种通过泰勒展开式逼近非线性逻辑损失,对加密的垂直分区数据进行逻辑回归的框架。显然,在这种近似下,算法将不可避免地造成精度损失。与此相反,我们提出了一种本质上无损的新方法。我们相信SecureBoost框架是第一次尝试在垂直分区数据上保护隐私的联邦学习,它平衡了准确性和安全性

问题重述

定义1。主动方:
我们将活动方定义为同时持有数据矩阵和类标签的数据提供者。
由于课堂标签信息对于监督学习是必不可少的,所以必须有一个主动的方可以访问标签y。在联合学习中,活动方自然承担起主要服务器的责任。
定义2。被动方:
我们将只有一个数据矩阵的数据提供者定义为被动方。
被动方在联合学习设置中扮演客户机的角色。他们还需要建立一个模型来预测类标签y的预测目的。因此,它们必须与活动方协作来构建它们的模型,以便使用它们自己的特性为未来的用户预测y。
在联邦学习中,垂直分区数据上的隐私保护机器学习问题可以表述为:
**给定:**一个分布在m个私有方上垂直分区的数据矩阵,类标签y分布在活动方上。(被对方只有数据矩阵,没有标签)
**学习:**一个机器学习模型M,在此过程中不向其他方提供任何方的数据矩阵信息。模型M是一个函数,每一方都有一个投影i,这样M就可以输入自己的特征Xi。i
无损约束:我们要求模型M是无损的,这意味着在训练数据上的联合学习下M的损失与在所有数据的联合上建立M时M的损失是相同的

目标

我们的第一个目标是在所有参与方找到一组共同的数据样本,从而建立一个联合模型M。当数据在多个参与方上垂直分区时,不同的参与方拥有不同但部分重叠的用户。这些用户可以通过其唯一的用户id进行标识。问题是如何在不影响用户集的非共享部分的情况下,跨各方查找公共共享用户或数据样本。特别是,我们通过使用数据库间交叉口的隐私保护协议(Liang和Chawathe 2004),在加密方案下对齐数据样本。
在隐私约束下对不同参与方的数据进行对齐后,我们现在**考虑联合学习中在不违反隐私的情况下在多个参与方上联合构建树集成模型的问题。**在进一步讨论算法细节之前,我们首先介绍一个联邦学习的一般框架。在联邦学习中,典型的交互包括四个步骤。

  • 首先,每个客户端从服务器下载当前的全局模型。
  • 接下来,每个客户端根据其本地数据和当前的全局模型计算更新后的模型,该模型驻留在活动方。
  • 第三,每个客户端在加密的情况下将模型更新发送回服务器。
  • 最后,服务器聚合这些模型更新并构建改进的全局模型。
    我们可以看到,为了在联邦学习的设置下实现一个隐私保护树增强框架,本质上,我们必须回答以下三个问题:
  • (1)每个客户端(即客户端)如何能够计算一个更新的模型基于它的本地数据而不参考类标签?
  • (2)服务器如何(即活动方)聚合所有更新的模型并获得一个新的全局模型?
  • (3)如何在推理时不泄露任何信息的情况下,将更新后的全局模型共享给各方?
  • 为了回答这三个问题,我们首先回顾一个非联邦环境下的树集成模型XGBoost。(此处不再赘述)
    根据上述,我们提出以下意见:
  1. 叶子节点的分裂仅仅取决与gi和hi。
  2. 计算gi和hi需要标签。
    SecureBoost: A Lossless Federated Learning Framework论文笔记_第2张图片
    在上述观察的指导下,我们现在讨论如何将非联邦梯度增强树模型应用于联邦学习设置。

我们可以看到,每一个被动方在获得gi和hi后,只需获得其本地数据就可以独立地确定局部最优分割。因此,一个简单的解决方案是要求主动方向每个被动方发送gi和hi。然而,根据观察(2)gi和hi也应该被视为敏感数据,因为它们可以用来发现类标签信息。为了确保安全,被动方不能直接访问gi和hi。为了保持gi和hi的一致性,我们要求主动方在发送给被动方之前对gi和hi进行加密。剩下的挑战是如何用加密的gi和hi为每个被动方确定本地最优分割。
根据下面的公式:
定理2。对于一个学习过的SecureBoost模型,信息泄漏由第一棵树的叶子的重量给出。
证明:二分类问题的损失函数如下所示。
在这里插入图片描述
换句话说,给定一个已学习的SecureBoost模型,可以从第一棵树的叶子的权重推断出信息泄漏。
根据公式(5),如果每一个可能的分裂都能计算出gl=Pi∈IL-gi和hl=Pi∈IL-hi,则可以找到最优分裂,其中IL是分裂后左节点的实例空间。接下来,我们将展示如何使用附加同态加密方案(Paillier 1999)获得具有加密gi和hi的gl和hl。
主要通过下述加密算法:SecureBoost: A Lossless Federated Learning Framework论文笔记_第3张图片
对于每一个被动方,它不直接计算和而是将特征映射到bucket中,然后基于bucket聚合加密的梯度统计信息。这样,主动方只需要从所有被动方收集聚合的加密梯度统计信息。结果,它可以确定全局最优分割,如算法2所述。在这种情况下,构建回归树的通信成本可以降低到2∗(n/q)∗d∗ct,其中q表示一个bucket中的实例数。显然,我们有(1/q)<<1。因此,我们确实可以降低通信成本。在主动方获得全局最优分割后,【参与方id(i)、特征id(k)、阈值id(v)】,将特征id k和阈值id v返回给对应的被动方i,被动方i根据k和v的值来确定所选属性的值,然后,它根据所选属性的值划分当前实例空间。此外,它在本地构建一个查找表来记录所选属性的值,[特性,阈值],如图3所示。之后,它将记录的索引和拆分后左节点的实例空间返回给活动方。活动方根据接收到的实例空间拆分当前节点,并将当前节点与[party id,record id]关联,直到达到停止条件或最大深度。所有叶节点都存储在活动方中。
SecureBoost: A Lossless Federated Learning Framework论文笔记_第4张图片
SecureBoost: A Lossless Federated Learning Framework论文笔记_第5张图片

基于学习模型的联合推理

在本节中,我们将描述如何使用学习的模型(在各方之间分布)来对新实例进行分类,即使要分类的实例的特征是私有的并分布在各方之间。由于每个站点都知道自己的特性(因此可以对分支进行评估),但对其他站点一无所知,因此我们需要一个安全的分布式协议来根据所做的决策控制从一个站点到另一个站点的传递。
为了说明推理过程,我们考虑一个包含三个参与方的系统,如图3所示。其中,甲方为主动方,负责收集用户每月的账单支付、受教育程度、标签信息。甲方2、乙方3为被动式,分别具有【年龄、性别、婚姻状况】、【授信金额】的特征。假设我们想知道用户X6是否会按时付款。所有网站都必须合作做出预测。整个过程由积极的一方协调。从根节点开始,通过引用记录[参与方id:1,记录id:1],活动方知道参与方1持有根节点。因此,它需要party 1从基于记录id 1的查找表中检索相应的属性Bill Payment。由于分类属性为bill payment,且party 1知道用户X6的bill payment为4367,小于阈值5000,所以它决定向下移动到它的左子节点node 1。活跃方是指与节点1关联的记录[方id:3,记录id:1],要求3方进行相同的操作。

无损性质的理论评估

定理1。SecureBoost是无损的,定义在章节的问题声明,只要模型M和M '有相同的初始化和参数。
证明:在联合学习的情况下,模型M的损失与所有数据的联合建立M1时的损失相同,因为M1和M1是相同的。根据式(5),gi和hi是计算最佳分割所需的唯一信息。 假设初始化相同,每次迭代,每个实例都有相同的gi和 hi值,那么在树的构造过程中,模型 M和M1总是可以实现相同的最佳分割。因此,M和M1是相同的,这就保证了无损的性质。′

安全的讨论

在本节中,我们将讨论我们提出的Se cureBoost框架的安全性。特别地,我们将提供详细的分析框架的信息泄漏,并讨论我们的框架在半诚实的对手的存在下的安全性。此外,除了安全性的证明之外,我们还讨论了使协议完全安全所需的内容。

信息泄漏分析

由于SecureBoost包含两个部分,我们分别讨论了这两个部分的信息泄漏。
在保护隐私的实体对齐过程中,加密技术保证除了各方之间的公共共享用户的ID外,不会泄露任何信息。虽然公开公共共享用户的ID可能会导致一些潜在的风险,但是在大多数情况下,这种程度的泄漏是可以接受的。
对于树集成模型的构建,所揭示的内容包括:
(1)每一方都知道每个分裂的实例空间;
(2)各方都知道自己所持有的树节点;
(3)主动方知道每个被动方拥有的特征数量;
(4)主动方知道gi和hi的实际价值;
(5)活动方知道哪个站点负责每个节点的决策
考虑一个只有一个被动方和一个主动方的系统,我们现在讨论泄露信息所带来的潜在安全风险。
首先,我们研究了被动方对主动方能了解多少信息。我们知道,SecureBoost本质上是一个决策树模型。虽然它的叶子节点不包含类标签,但是与同一个叶子关联的实例仍然强烈地表明它们可能属于同一个类,或者导致类似的回归结果。因此,在Se-cureBoost中,我们要求被动方不知道叶节点,以防止标签信息泄露。然而,这样的保护不足以保证安全。让我们考虑这样一种情况
:一个被动方持有两个叶节点的父节点
。在这种情况下,这些叶节点的实例空间不再对被动方隐藏。被动方可以猜测与同一叶子关联的所有实例属于同一叶子类。推论的置信度由叶片纯度决定,其中叶片纯度指的是样本中属于多数类的比例。因此,我们以叶片纯度为度量标准,进行定量的信息泄漏分析,以确保安全。更准确地说,我们考虑二进制分类的场景是因为它可能会导致最大的安全风险。
SecureBoost: A Lossless Federated Learning Framework论文笔记_第6张图片
根据公式(2),为了学习SecureBoost模型,我们在第t次迭代时贪婪地添加一个决策树ft来确定剩余yi-yi(t-1)。因此,当t>1时,与同一叶子相关联的实例仅表示它们可能具有相似的残差,这不能直接用于推断标签信息。然而,当t=1时,f1试图确定标签yi。在这种情况下,叶节点的实例空间可以显示标签信息。因此,我们的安全问题主要集中在我们可以从第一棵树f1推断出多少信息。让我们从定理2开始分析。
定理2。对于一个学习过的SecureBoost模型,信息泄漏由第一棵树的叶子的权重给出
证明。二分类问题的损失函数如下所示。
在这里插入图片描述
根据定理2,只要第一棵树的叶子的权重足够接近s(2a-1)/(2a(a-1)),该协议就被认为是安全的。
其次,我们关注主动方是否能够了解被动方的私人信息。具体来说,我们有一个安全问题,即如果主动方可以恢复被动方持有的部分特性,并且有一定的信心的话。在训练中,主动方学习:
(1)每个分割的实例空间;
(2)自身持有的树节点;
(3)各被动方拥有的特征数量;
(4) gi和hi的实际值;
(5)哪个站点负责每个节点的决策。为了恢复特征,活动方必须学习所有实例之间关于特定特征的部分顺序关系。然而,它所知道的唯一信息是如何最好地分割实例空间,这显然不足以学习偏序关系。
总的来说,根据我们的分析,SecureBoost的信息泄漏程度是可以接受的。

Semi-Honest安全

在本小节中,我们将在半诚实的假设下讨论我们的框架的安全性。在我们的安全定义中,所有各方都是诚实但好奇的。一些腐败的政党可能会相互合作,以收集私人信息。具体地说,我们要求主动的一方不与任何被动的一方勾结。我们现在证明了Secureboost在安全定义下是安全的。

证明:我们的SecureBoost系统可以分为两部分,第一部分只包含主动方,第二部分包含所有被动方。当所有的被动方都相互勾结时,系统就等于一个主动方和一个超级被动方的系统。这个超级被动方拥有被动方的所有特性。正如在信息泄漏部分分析中所讨论的,我们证明了当我们的系统只有一个主动方和一个被动方时,信息泄漏的水平是可以接受的。因此,我们的系统在半诚实假设下是安全的。

完全SecureBoost

正如在信息泄漏部分分析中所讨论的,我们主要关心的安全问题是叶子节点的实例空间可能暴露了太多的信息,而被动方确实有机会知道叶子节点的实例空间,叶节点与活动方协作构建树集成模型。为了缓解这个问题,我们建议完全使用SecureBoost来防止被动方构建第一个树。与SecureBoost不同,完全SecureBoost的主动方根据自己的特性独立学习第一棵树,而不是与被动方协作。因此,可以保护第一个树的叶节点的实例空间。在这种情况下,被动一方所能学到的就是剩余。虽然我们直观地说明了残差在第一个树得到保护后不会显示太多信息,但是为了使它更合理,我们现在给出了一个定理3中给出的理论证明。
定理3。当前一棵树的叶子纯度很高时,树的残差不会透露太多信息。
证明:如前所述,对于二分类问题,我们有:
SecureBoost: A Lossless Federated Learning Framework论文笔记_第7张图片
当我们在第t次迭代时用k个叶子构造决策树以确定前一棵树的残差时,本质上,我们将数据分成k个簇以最小化后续损失。
SecureBoost: A Lossless Federated Learning Framework论文笔记_第8张图片
在这里插入图片描述
因此,对于正样本,我们有gi∈[−1,0],对于负样本,我们有gi∈[0,1]。考虑到gi的范围,我们把上面的方程改写为:
SecureBoost: A Lossless Federated Learning Framework论文笔记_第9张图片
其中,v在这里插入图片描述j分别表示与叶j相关联的负样本集和正样本集。我们将正样本的| gi |的期望值表示为μp,将负样本的| gi |的期望值表示为μn。当我们有大量样本但有少量离开节点k时,我们可以使用以下等式来近似式(8)。
在这里插入图片描述

其中nnj和npj表示与叶片j相关的阴性样本和阳性样本的数量。自从µ∈[0,1],µ∈[0,1],我们知道必须积极分子和分母是负的。n n 因此,整个方程必须是负的。使式(9)最小等于使分子最大同时使分母最小。注意,分母是px2,分子是(px)2,其中x∈[0,1]。这个方程以分子为主。因此,分母最小化。(9)可以被视为最大化分子(nnjµ−npjµ)。理想情况下,我们要求nnj = npj,以防止标签信息泄露。当|µ−µ|更大,更可能我们可以实现我们的目标。
SecureBoost: A Lossless Federated Learning Framework论文笔记_第10张图片
给定定理3,我们可以得出结论:当第一棵树学习到足够的信息来用残差掩盖实际标签时,完全安全的boost是安全的。

实验

在本节中,我们将对两个公共数据集进行实验。这些数据集的摘要如下所示。
信用1:它涉及到对用户是否会遭受严重的财务问题进行分类的问题。1它总共包含150000个实例和10个属性。
信用2:它也是一个信用评分数据集,与预测用户是否会按时付款的任务相关。2它总共包含30000个实例和25个属性。
在我们的实验中,我们使用2/3的数据集进行训练,剩下的数据集进行测试。我们将数据垂直分为两部分,并将它们分发给两方。为了比较不同的方法,我们将个体回归树的最大深度设为3,用于拟合个体回归树的样本分数设为0。8,学习率为0。3为所有方法。我们采用Paillier加密方案作为我们的加性同态方案,密钥大小为512位。所有的实验都是在具有8GB RAM和Intel Core i5−7200u CPU的机器上进行的。

可伸缩性

由于SecureBoost包含隐私保护实体对齐和安全联合树增强两个组件,我们分别研究了每个组件的可伸缩性。
在评价保隐私实体对齐算法的可扩展性时,我们考虑了一个只有双方参与的系统。分配给A方和B方的样本数量是需要考虑的重要因素。为了考察这两个因素的影响,我们将分配给A方和B方的样本数量在对数尺度上分别从1K到1M。我们通过固定另一个变量来研究每个变量的影响,以研究变化如何影响运行时间。结果如下表1所示。
•一般来说,运行时变化w.r.t。分布在甲方的样本数量与分布在乙方的样本数量变化趋势相似,这说明分布在甲方和乙方的样本数量对运行时间的贡献是相等的。
•运行时间很大程度上取决于max(#samples A, #samples B)。当样本的大小分布时甲方等于分布在乙方上的样本,运行时间随样本大小的增加几乎呈线性增加。
•当分布在A和B双方的样本数量为1M时,对实体进行对齐只需要大约16分钟的计算时间,这是相当高效的。这个观察结果验证了我们的实体对齐算法的可伸缩性
SecureBoost: A Lossless Federated Learning Framework论文笔记_第11张图片
安全联邦树增强系统的效率
我们注意到,安全联邦树增强系统的有效性可能受到(1)收敛速度的影响;(2)个体回归树的最大深度;(3)数据集的样本量;(4)数据集的特征大小。在本节中,我们分别研究了这四个变量对学习运行时间的影响。所有的实验都是在数据集Credit 2上进行的。
首先,我们感兴趣的是我们提出的系统的收敛速度。我们比较了安全增强和非联合树增强的收敛速度,包括GBDTand和XGBoost。从图4可以看出,SecureBoost与训练数据集上的其他非联邦基线方法显示了类似的学习曲线。在测试数据集中,它的表现比其他的稍好一些。此外,我们可以看到,随着boost阶段的增加,训练损失和测试损失在开始阶段迅速下降。当助推阶段从10增加到25时,训练数据集和测试数据集的损失变化不大。综上所述,该算法在收敛性方面表现良好,在实际应用中具有一定的吸引力,大大降低了计算成本
SecureBoost: A Lossless Federated Learning Framework论文笔记_第12张图片
SecureBoost: A Lossless Federated Learning Framework论文笔记_第13张图片
接下来,为了研究单个树的最大深度如何影响学习的运行时,我们在{3、4、5、6、7、8}中改变每个单独树的最大深度,并记录一个提升阶段的运行时。如图5 (a)所示,我们可以看到随着每棵树的最大深度的增加,运行时几乎呈线性增长。这说明我们可以用相对较少的时间训练出相对较深的树,这在实践中很有吸引力,尤其是在大数据场景中。
SecureBoost: A Lossless Federated Learning Framework论文笔记_第14张图片
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200323163912141.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzMTU2MjMz,size_16,color_FF
最后,我们希望研究数据大小对我们所提议的系统的可伸缩性的影响。我们通过特性产品来扩充特性集。如图5 (b)和图5 ©所示,我们分别研究了特征数和样本数的影响。如图5 (b)和图5 ©所示,为了研究这两个变量的影响,我们在{50,500,1000,5000}范围内改变特征数,在{5000,10000,30000}范围内改变样本数。我们将单个回归树的最大深度设置为3。我们比较了一个助推阶段的运行时间,以研究每个变量如何影响算法的效率。从结果中,我们对图5 (b)和图5 ©进行了类似的观察。结果表明,样本数量和特征数量对运行时间的贡献是相同的。此外,我们可以看到,我们提出的框架即使使用相对大的数据也可以很好地扩展。

完全SecureBoost的性能

为了研究完全SecureBoost在安全性和预测准确性方面的性能,我们的具体目标是回答以下两个问题:(1)第一棵树仅建立在由活动方持有的功能上,学习到足够的信息来掩盖实际的标签?(2)与SecureBoost相比,完全SecureBoost的性能是否有很大的损失?
首先,我们研究了完全Secureboost的性能。在对信息泄漏进行截面分析之后,我们从叶片纯度的角度对信息泄漏进行了评价。正如在定理3中所讨论的,我们知道当第一个完全SecureBoost树很好地符合标签信息时,剩余不会显示太多的标签信息。因此,为了验证完全SecureBoost的安全性,我们必须证明完全SecureBoost的第一棵树确实很好地掩盖了实际的标签。我们在两个真实的数据集上进行了实验,信用1(Credit 1)和信用2(Credit 2)。如表2所示,我们比较了第一棵树和第二棵树的平均叶纯度。其中,平均叶纯度为加权平均,由Pki=0 nn ipi计算得到。这里,k表示叶节点的总数。pand nare定义为叶片纯度和与叶片i相关的实例数。i i n表示实例总数。从表2可以看出,在两个数据集中,从第一棵树到第二棵树的平均叶纯度都显著下降,验证了完全SecureBoost在信息保护方面的有效性。此外,第二棵树的平均叶纯度刚好超过0。两个数据集上都有6个,这足以防止标签信息泄露。
接下来,为了研究完全SecureBoost在预测精度方面的性能,我们将完全SecureBoost与SecureBoost在第一棵树的性能和总体性能方面进行了比较。我们对数据集Credit 1和Credit 2进行了实验。两者都涉及到二元分类的任务。因此,我们考虑常用的准确性、ROC曲线下面积(Area under the ROC curve, AUC)和f1-score作为评价指标。这三个评价指标都是越高越好。结果如表3所示。可以看出,完全是SecureBoost与SecureBoost相比,ScureBoost在几乎所有情况下的性能都一样好。我们还进行了完全安全助推和Se-cureBoost之间的成对Wilcoxon符号秩检验。比较结果表明,完全SecureBoost与SecureBoost一样准确,显著性水平为0.05。无损的性质仍然可以保证完全安全。

结论

在本文中,我们提出了一种新的无损隐私保护算法SecureBoost,在训练数据在多方保持秘密的情况下训练高质量的树增强模型。我们从理论上证明了我们提出的框架与非联邦梯度树增强算法一样准确,将所有数据天真地放在一个地方。除了安全证明之外,我们还讨论了使协议完全安全所需的内容。实验结果表明,即使在相对较大的数据量下,我们提出的安全升压算法也具有良好的可扩展性。
我们认为,联邦学习的研究才刚刚开始。尽管在本文中我们展示了如何将增强树算法应用于联合学习设置,但在隐私保护和无损方式下的其他机器学习算法仍有许多工作要做。其他加密算法也可以考虑,以确保上述属性。

你可能感兴趣的:(AI)