本文介绍我们最近的一项被CIKM 2021录用的工作《Differentially Private Federated Knowledge Graphs Embedding》:
Paper:https://arxiv.org/abs/2105.07615
摘要
知识图谱嵌入在知识表示、推理和数据挖掘等应用中起着十分重要的作用。然而,对于多个跨领域的知识图谱来说,目前最先进的嵌入模型无法在保护数据交换过程中产生的隐私的同时,充分利用来自不同知识领域的数据和信息。并且集中式的嵌入模型无法拓展到广泛的现实世界的知识图谱中。因此,我们提出了一种新颖的去中心化的可拓展学习框架——Federated Knowledge Graphs Embedding(FKGE),实现了在保护隐私的同时以异步和对等的方式学习不同知识图谱的嵌入。FKGE 利用成对的知识图谱间的对抗生成将不同领域的相同实体和关系转换到临近嵌入空间。为了保护训练数据的隐私,FKGE进一步实现了隐私保护对抗模型(PPAT),来保证原始数据不被泄露。我们进行了大量的实验来评估11个知识图谱上的FKGE模型,三重分类和链路预测任务的性能提高了近17.85%和7.9%,这证明了我们模型的质量取得了显著且一致的改进。
研究背景
知识图谱(KGs)的构建推动了很多应用的发展,如语义搜索、推荐系统等。目前已有几个大型通用的KGs,如Wikidata、Yago等。还有很多各种规模的专业领域的KGs,如地理学中的GeoNames 和语言学中的Lexvo。然而大多数公司建立自己的商业KGs往往需要耗费很大的人力和计算成本。除了保护隐私外还有很多其他原因使得他们不愿分享自己的KGs。但很多时候,公司又必须通过交换信息来改善自己的数据质量和服务。目前的知识图谱嵌入模型在对实体和关系进行向量表示时,当不同的KGs的嵌入空间对齐,则他们可以共享信息。但是向其他参与者透露向量表示会泄露隐私信息。即无法满足既想共享信息又想保护隐私的愿望。因此,我们希望设计一种更松散耦合的合理的方式来共享KGs。
我们引入允许多个数据所有者在不影响数据隐私的情况下协作构建模型的联邦学习,经过联合训练后,每个KG仍然不知道其他KGs的嵌入空间,但每个KG的嵌入却得到了改善。另外,在PPAT网络中引入的差分隐私(DP)机制可以保证:在训练每对对齐实体的嵌入时,任一单个的嵌入不会被泄露。这也允许我们针对不同的KGs使用不同的基础KG嵌入模型。
模型框架介绍
我们将来自分别独立的拥有者的知识图谱的集合表示为,其中N表示KGs的总数量。内每个元素都来自于不同的数据库,并且不能互相访问。用表示内的第k个知识图谱,其中,、、分别表示中实体、关系和三元组的集合。每个三元组由一个头实体、一个尾实体和一个两者之间的关系组成。对于内的任何一对知识图谱,我们假设通过秘密哈希函数可以得到对齐实体集和关系集。我们的目标是利用得到的对齐实体集和关系集进一步改进任一单个知识图谱的所有嵌入。
下图是FKGE的整体框架。每个知识图谱的拥有者在本地训练自己的实体和关系的嵌入,基于训练后的嵌入,FKGE从成对的KGs聚合对齐实体和关系的嵌入,然后以联邦学习的方式更新嵌入。对于来自任何一对知识图谱(如:)的对齐实体和嵌入,FKGE存在一个秘密通道来优化和的嵌入,并进一步分别改进每个知识图谱内和的嵌入。另外,FKGE提出了一种联合训练机制:通过广播来促进各方的共同进步。更具体地说,如果或得到了改进,那么它将向其他KGs广播信号来进一步提高整体结果。否则,它将会变回联合前的原始嵌入。
通过下面的例子并配合上图,来更清晰地介绍FKGE框架。起初,, , 分别在本地训练自己的嵌入,第一次联合得到了, 和三对KGs,联合后和得到了改进,而训练所需的时间更久且没有得到改进,所以回到了最初的嵌入。在第二次联合中,和 配对得到了,,并且只有得到了改进,则会回溯到先前的嵌入。由于仍然在训练过程中,它将不参与第二次联合并在没有可以配对的KG存在时进入睡眠状态。第三次联合中完成了训练并唤醒了,形成了, 和三对知识图谱。整个训练将在所有KGs都没有改进时结束。
模型设计详述
PPAT——隐私保护对抗模型
对于具有对齐实体和关系的,FKGE利用GAN结构统一对齐实体和关系的嵌入。但是由于神经模型可能会记得输入并且能够从对应的输出中重建输入,隐私忧患仍然存在。为进一步解决隐私问题,我们引入差分隐私将生成的嵌入私有化。由于包含和排除某个特定的嵌入不会对结果分布产生很大的影响,所以差分隐私能够为保护生成器输出的任何单个的嵌入提供强有力的保证。差分隐私的定义如下:
定义1(相邻数据集):如果,那么我们称为相邻数据集。
定义2(差分隐私):对于任意两个相邻数据集以及输出的任何一个子集(),如果存在一个域为、范围为的随机算法满足下式,则称可以提供-差分隐私:
其中,表示隐私预算。由于相邻数据集的算法输出相近,所以越小,隐私保护效果越好,模型效用也越低。表示信息意外泄露的概率。基于上面的定义,PATE-GAN提出了一种修订的GAN结构,通过将PATE机制和教师、学生鉴别器一起应用来生成差异私有的生成器输出。基于上面的说明,我们实现了PPAT网络。
PPAT网络的结构如上图。PPAT网络将原来GAN结构中的鉴别器替换为多个教师鉴别器和一个学生鉴别器,以实现生成嵌入的差分私有。具有参数(也就是平移映射矩阵)的生成器位于的数据库内,具有参数的学生鉴别器和具有参数的多个教师鉴别器位于的数据库内。代表客户端,代表主机。主机负责生成器和所有鉴别器的反向传播计算,而客户端仅传输其生成的嵌入并接收梯度以更新其生成器参数。我们用表示中和的嵌入,用表示中和的嵌入。生成器的目标是通过让尽可能相似于生成对抗样本,使学生鉴别器无法区分出它们。生成器损失的目标函数为:
其中,,S表示学生鉴别器。
教师鉴别器的学习目标和原始鉴别器相同——区分假样本和真实样本。唯一的区别是,教师鉴别器是在不相交的子集上训练的。教师鉴别器的损失为:
其中,表示由的数据集和组成的满足的一个子集,不同子集间没有交集。
学生鉴别器S的学习目标是对给定了聚合噪声标签的生成样本进行分类。更确切地说,教师鉴别器的预测结果和随机注入的拉普拉斯噪声将决定S的标签。PATE机制如下:
其中,, 是两个独立同分布的引入到教师鉴别器预测结果中的噪声,并且都呈参数为的拉普拉斯分布。表示将输入预测为类别的教师的数量:
然后学生鉴别器利用带有噪声标签的生成样本在主机数据库上进行训练,学生鉴别器损失函数为:
其中,,即教师鉴别器选出的聚合噪声标签。
PPAT模型的流程大致如下:X中对齐实体和关系的原始嵌入被提供给生成器来生成对抗样本,之后会被传输到主机的所有教师鉴别器。通过在教师鉴别器的选择结果中添加拉普拉斯噪声满足差分隐私的要求。然后学生鉴别器由带有聚合标签的合成嵌入训练,其中包含教师鉴别器选出的0/1。The Post-Processing Theorem说明数据独立映射f与差分私有的算法M的组合也是差分私有的。根据该定理,学生鉴别器S也是差分私有的,这是因为它被差分私有的标签训练。另外,生成器G也是差分私有的,是因为G由学生鉴别器S训练。因此传输的嵌入是合成且差分私有的,是因为它们是生成器G的输出。在训练过程中,主机在本地计算生成器和所有鉴别器的损失函数:使用学生鉴别器损失和教师鉴别器损失的梯度在本地更新鉴别器的参数,同时生成器损失的梯度返回给生成器以更新其参数。因此,和都无法访问对方的嵌入或是原始数据。因此,对于知识图谱所有者的任何参与者,原始数据的隐私都受到保护。
联合训练
对于多个知识图谱,我们在中的任一对间构造PPAT网络,其中,或,所以最多可以同时得到个PPAT网络。对于任一对知识图谱,至少分别存在一个客户端和一个主机。另外,异步和去中心化的设置允许单个知识图谱拥有者选择是否与其他拥有者合作。合作过程可以被描述为握手协议。存在ready、busy、sleep三种状态。Ready表明拥有可用的计算资源并且积极与其他KGs合作。Busy表明没有足够的资源,此时不会响应任何的合作请求。并且,合作者将会被放进队列,直至完成工作准备好进行合作。Sleep表示尽管具有计算资源,但是不会接受任何合作请求。也就是说,如果ready时不能找到一个合作者,那么就会转换为sleep,并会在特定时间段或是收到合作请求后唤醒到ready状态。和之间成功的握手协议需要,并且至少二者之一为ready状态。
实验与论证
我们选取11个不同规模的知识图谱,使用相同类型的具有相同配置的GPU设备在11个独立进程上进行所有的对比实验。FKGE 框架与不同的 KGE 方法兼容。我们选择OpenKE中流行且简单的基于翻译的模型:TransE、TransH、TransR 和 TransD,来评估三重分类和链路预测任务下不同方法的性能。两个任务的实验结果均表明了FKGE模型的有效性和适应性。
综述
本篇论文提出了一种新型的知识图谱嵌入模型(FKGE),它具有以下特征:
异步和去中心化:与基于客户端的集中模型不同,FKGE 将来自不同域的 KG 与对抗性网络配对。
可拓展并可与很多基础嵌入模型兼容:异步和去中心化的设置使得配对的知识图谱之间可以并行计算。此外,FKGE 可以通过握手协议作为现有 KG 嵌入方法的元算法。
保护隐私,保证原始数据不被泄露:FKGE 的设计不需要合作者之间的原始数据传输,并且传输的生成嵌入是差分私有。
Code:https://github.com/HKUST-KnowComp/FKGE