来源: AINLPer 微信公众号(每日论文干货分享!!)
编辑: ShuYini
校稿: ShuYini
时间: 2022-09-27
知识图谱(KGs)目前被广泛应用,但不论是传统的KGs和新建的KGs都会存在不完整的问题。虽然知识图谱嵌入(KGE)可以解决该类问题,但是新兴的KG往往伴随着新的关系和实体,在已有KG上训练的KGE模型,是不能应用于在新建KG上去获取这些看不到的实体和关系的。为此本文引入了元学习设置,在现有KG上对一组任务进行采样,以模仿新兴KG上的链接预测任务,基于采样任务训练了一个图神经网络用于解决此类问题。论文及源码在后面
知识图谱(KGs)是由大量三元组(头实体、关系、尾实体)组成的表达性的数据结构。如今,许多大规模的KGs已经成为越来越多应用的重要数据支持。随着 KG 的发展,它们不再仅仅以集中的方式应用,即可以在一台设备上访问 KG 的所有三元组,而且以分散的方式应用。目前,许多移动应用程序(APP)在用户的设备上构建了个人KG,自然,在新设备上的新KGs也会随时出现。然而,众所周知,传统的大规模KG是不完整的;因此,新构建的KGs也面临这个问题。对于KG补全问题,大量的研究人员致力于通过学习实体和关系的低维向量表示(即:知识图谱嵌入,KGE)来预测缺失的环节。
然而,知识图谱嵌入(KGE)方法在实际应用中并不完善。传统的KGE方法不能处理新的关系和实体,因为它们学习的是固定的实体和关系集的嵌入,而一个新兴的KG往往伴随着新的关系和实体。如上图所示,新兴的KG包含一个看不见的实体Org.B和一个看不见的关系TeacherOf,因此,在已有KG上训练的KGE模型,是不能应用于在新建KG上去获取这些看不到的实体和关系的。
虽然现有方法可以通过归纳方法实现KG补全,进而解决KG中不可见实体的问题,但不能同时处理不可见关系和不可见实体。此外,这种归纳KG补全方法不能利用已知实体,因为没有考虑已知实体的可传递信息,比如训练过的向量表示;除非现有的KG与新兴的KG融合在一起。然而,在实际应用程序中,由于多种原因,例如数据隐私,是不允许做这样的KG集成的。我们将这种场景称为联邦设置(federated setting)中的KGs,即这些KGs可以使用相同的模型,但它们的数据没有显式共享。为此我们希望:能否利用对可见关系和实体训练得到的嵌入模型,在联邦环境中,得到 KG 的不可见关系和实体?
一个新生KG的链接预测任务可以被看作是预测一组查询三元组的可信度。为了解决新生KG中的不可见组件(这里不可见组件指的是:不可见实体和不可见关系),受元学习“学会学习”的启发,我们在现有KG上制定了一组由支持三元组和查询三元组组成的任务,模拟新兴KG中的链接预测任务,并学会在每个任务中嵌入不可见组件。此外,我们提出了一个图神经网络(GNN)框架,它可以同时嵌入可见和不可见组件。如下图所示:
本文的模型框架主要包括三个模块:关系特征表示模块、实体特征表示模块、GNN知识外推((Knowledge Extrapolation))。其中:
关系特征表示模块:由三元组构造关系位置图(RPG),揭示关系之间的相对位置,并在此基础上构造关系特征如上图(b)所示;其中,基于四个关系相对位置,我们定义了RPG中节点之间的四个关系,如上图(a)所示。为了避免混淆,我们将这种“关系之间的关系”称为元关系,并将表示关系的节点称为re -node。对于两个特定的关系,如果在支持三元组中出现了它们的一种相对位置,则它们在RPG中对应的rel-node将由对应的元关系连接起来。在构建RPG后,如上图图©所示。
实体特征表示模块:使用实体和其相邻之间的连接来表示它们的特征;
GNN知识外推模块:GNN对可见和不可见组件进行特征编码和输出嵌入,以实现知识外推。
将基于KG基准数据集评估本文提出的方法MaKEr(用于基于元学习的知识外推),并将其与基线进行比较,以显示该模型的有效性。
1、如下表结果所示,本文提出的MaKEr在不同的基线上实现了改进,并且使用不同的KGE方法具有稳定的性能。
2、如下表所示,与Asmp-KGE生产的嵌入式产品相比,MaKEr生产的嵌入式产品的分布更符合其对应的类型。对于Asmp-KGE,不同实体类型的嵌入是混合的,而对于MaKEr,嵌入映射到不同的集群。
[1] 必看!!【AINLPer】自然语言处理(NLP)领域知识&&资料大分享
[2]【历年NeurIPS论文下载】一文带你看懂NeurIPS国际顶会(内含NeurIPS2022)
[3]【NLP论文分享&&语言表示】有望颠覆Transformer的图循环神经网络(GNN)
[4]【NeurIPS && 图谱问答】知识图谱(KG) Mutil-Hop推理的锥形嵌入方法(中科院–含源码)
[5]【NLP论文分享 && QA问答】动态关联GNN建立直接关联,优化multi-hop推理(含源码)
[6]【历年IJCAI论文下载 && 论文速递】无数据对抗蒸馏、垂直联合、预训练微调范式图神经网络(GNN)
[7]【NLP论文分享 && 含源码】基于Prompting Seq2Seq的自动标签序列生成(清华AI研究院)
[8]【NLP论文分享&&PLM源码】预训练模型BERT玩转Twitter(70亿数据对、100多种语言)
[9]【论文速递 && IJCAI论文干货下载】图神经网络(GNN)(多行为推荐、多模态食谱表示学习、同质图表示学习)
[10]【历年IJCAI论文下载 && 论文速递】无数据对抗蒸馏、垂直联合、预训练微调范式图神经网络(GNN)
[11]【NLP论文分享&&中文命名实体识别】如何构建一个优秀的Gazetteer/地名词典(浙大&含源码)
[12]一文看懂线性回归【比较详细】(内含源码)
[13]一文看懂逻辑回归【比较详细】(含源码)
Paper:https://arxiv.org/pdf/2205.04692.pdf
Code:https://github.com/zjukg/MaKEr
关注 AINLPer 微信公众号(每日都有最新的论文推荐给你!!)