©PaperWeekly 原创 · 作者|舒意恒
学校|南京大学硕士生
研究方向|知识图谱
当前大量的知识图谱都是通过文本直接构建的。由于当前的知识图谱构建方法的局限性,其中难免包含对同一实体或关系的多种表述。
知识图谱嵌入模型的发展,长期关注于如何设计更好的评分函数、如何反映知识图谱的内在结构,但非常少的研究关注于知识图谱的实体和关系本身具有多种描述形式。本文提出的嵌入方法和基准测试,针对当前知识图谱构建的特点,提供了值得关注的见解。
论文标题:Can We Predict New Facts with Open Knowledge Graph Embeddings: A Benchmark for Open Link Prediction
论文来源:ACL 2020
论文链接:https://www.aclweb.org/anthology/2020.acl-main.209/
介绍
知识图谱是三元组的集合,其中,主语或宾语以结点表示,关系以带标签的边表示。当前知识图谱的构建通常需要丰富的文本链接和信息框,但它们并不是在每个领域都可用。因此,作者想要探索通过原始文本而没有中间步骤构建起来的知识图谱上,是否能够做链接预测,例如药物发现等领域。
开放信息提取系统自动地从非结构化数据中提取三元组,例如文本是一种非结构化数据。作者将这样提取出的数据称为开放知识图谱。作者尝试探索在没有规范和监督的情况下,如何在开放知识图谱上推理出潜在的事实知识。
链接预测是知识图谱上需要推理的一个常见任务。它的目标是预测知识图谱上缺失的事实。而当前知识图谱嵌入模型已成功用于预测知识图谱中的缺失事实。
开放知识图谱
开放知识图谱可以完全自动地被构建。它们不需要实体和关系的词典,因此他们能够捕捉更多信息。例如,不同的实体描述在不同的时间段指的是不同的实体版本。类似地,关系的描述也可能是多变的。
相比于一般的知识图谱,开放知识图谱包含丰富的概念知识。开放知识图谱可能包含更多的噪声,并且事实知识可能更加不确定。
如图,一般的知识图谱(curated KGs)对比开放知识图谱(open KGs)。
开放链接预测
在开放链接预测中,模型对一个有序的陈述进行预测。但是问题可能有多个等价的正确答案,即多个答案可能指代的是同一个实体,但有不同的表述。作者将其评估准则称为指代排序准则(mention-ranking protocol)。
作者的评估准则基于正确答案描述的最高排名。在过滤的设置上,除了被评价的实体外,已知答案实体的多种表述都将从排名中被过滤。该准则使用评价三元组实体的不同表述的知识来获得合适的排名,消除一个实体多种表述对排序的影响。
因此,该准则需要(1)待评价三元组的头实体和尾实体的注解,以及(2)这些实体的全面的表述集合。
构建开放链接预测的基准测试
4.1 数据源
作者将其提出的基准测试,称为 OLPBENCH,它基于 OPIEC [1] 构建,后者是一个最近发布的数据集,它从英文维基百科的文本构建得到。
4.2 评估数据
数据质量 从数据集中,作者构建了满足以下要求的验证集和测试集。评估数据中的噪声应该尽量的被限制,作者选择了一种简单有效的准则。在采样评估数据中的候选项中,不考虑 token 数量小于 3 的非常短的关系。作者给出了三个理由:
短关系通常归属于长关系。
长关系更少地被简单的应用于知识图谱构建方法的模式所捕捉。
自动提取的实体注解,对于短关系来说略显嘈杂。
数据构建中的人为干预 为了保证数据的质量,作者认为,对于规模较小的验证数据,人类经验的干预是必要的。因此,作者将验证数据分为三类。
VALID-ALL:没有人类的工作
VALID-MENTION:其中有部分人类的工作。
VALID-LINKED:大多数是人类的工作。
如图是 OLPBENCH 中链接数据与非链接数据的样例。
4.3 训练数据
为了评估知识图谱上的链接预测模型,评估事实通常通过对知识图谱的三元组进行采样生成。最简单的避免训练数据泄露到测试数据中的方法是直接删除评估三元组的训练数据。
但这种简单的方法可能并不能完全避免泄露,训练三元组仍然可能直接被推断到。例如,评估三元组 (a, siblingOf, b) 可以轻松地被训练三元组 (b, siblingOf, a) 回答到。
在开放知识图谱中,关系的转述导致了另外一种泄漏。例如,关系 “is in” 和 “located in” 可能包含许多相同的实体对。
作者使用了三个级别的泄漏移除方法,称为 SIMPLE、BASIC 和 THOROUGH,即简单的、基本的和彻底的泄漏移除。例如,训练数据中存在三元组 (i, k, j) 的情况:
简单移除:只有三元组 (i, k, j) 被移除,i 和 j 的其他表述不被移除。
基本移除:三元组 (i, k, j) 和 (j, k, i) 都被移除,i 和 j 的其他表述也都被移除。
彻底移除:在基本移除的基础上,按以下模式移除评估数据中的三元组:
(i, *, j) 和 (j, * i),即删掉两实体间任何方向的任何形式的关系,例如,三元组 (“J. Smith”, “is player of”, “Liverpool”).
(i, k + j,∗) 和 (∗, k + i, j),例如,三元组,(“J. Smith”, “is Liverpool’s defender on”, “Saturday”).
(i + k + j, ∗, ∗) 和 (∗, ∗, i + k + j),例如,三元组 (“Liverpool defender J. Smith”, “kicked”, “the ball”).
这三种移除方式将生成三个不同的训练集。
开放知识图谱嵌入
知识图谱嵌入模型已经成功地应用于知识图谱的链接预测,而作者将它扩展到开放知识图谱的链接预测当中。
知识图谱嵌入模型 知识图谱嵌入模型将每个实体和关系与一个嵌入关联起来,嵌入是以链接预测为目标学习到的稠密向量表示。这些模型为三元组计算分数,它的目标是为正确的三元组学习到高分数,为错误到三元组学习到低分数。
组合得到的知识图谱嵌入模型 作者考虑用组合函数从表面形式的标记中创建实体和关系表征。只要在训练过程中观察到标记,一个读取表述和开放关系标记的模型原则上可以处理任何表述和开放关系。
作者使用一个通用的模型架构,它组合了关系模型和组合函数。关系模型用于对三元组的评分,组合函数用于对一个实体或关系的多个 token 的组合。
使用组合的知识图谱嵌入模型。三元组的 token 首先被分别的嵌入,然后组合为一个表述或关系嵌入。最后,一个知识图谱嵌入模型被用于计算三元组的分数。
实验
作者使用 ComplEx [2] 作为关系模型,它是一个高效的双线性模型(bilinear model)。对于组合函数,作者使用一层 LSTM,hidden size 等于 token embedding 大小。作者将其称为 ComplEx-LSTM 模型。
对比模型 为了测试出有多少问题不需要通过整个问题的信息直接回答,作者提出两个对比模型。给定一个问题 (i, k, ?),PREDICT-WITH-REL 通过 (r, ?) 进行评分。例如问题,(“Jamie Carragher”, “is defender of”, ?),我们询问 (“is defender of”, ?). 而类似地,PREDICT-WITH-ENT 忽略关系而只计算实体对的分数。
如图是测试集上的结果,同时利用实体和关系的 ComplEx-LSTM 超越了作为对比的 PRED-WITH-ENT / PRED-WITH-REL。同时,泄露移除的程度越大,链接预测的效果越差,一定程度说明现有方法不能很好地处理开放知识图谱。人类对数据集的干预同时对模型表现的提升有影响。
如图是验证集上的结果。效果略高于测试集。
结论
作者提出了开放链接预测任务,以及一种构建开放链接预测基准测试的方法,并构建了一个基准测试 OLPBENCH。作者研究了评估事实的泄露、非关系信息和实体知识对链接预测任务的影响,并通过实验证明其方法预测出的事实基本是新的事实,而不是知识图谱中原有的。
参考文献
[1] Kiril Gashteovski, Sebastian Wanner, Sven Hertling, Samuel Broscheit, and Rainer Gemulla. 2019. OPIEC: an open information extraction corpus. CoRR, abs/1904.12324.
[2] The ́o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Complex embeddings for simple link prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 2071–2080.
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:[email protected]
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。