CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models

最近看了一篇论文,文本描述入手。利用大模型增强文本描述,从而实现模型性能的提升。
论文地址:CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models

ABSTRACT

知识图谱补全(Knowledge graph completion, KGC)的目的是利用已有的知识来预测知识图谱中的缺失链接(即确实的实体和关系)。基于文本的方法,如SimKGC,已经优于图嵌入方法(即结构嵌入,只利用三元租的信息),展示了归纳KGC的前景。补充一下,其实只是再WN18RR数据集上比较好,在FB5k-上就比较拉。然而,基于文本的方法的有效性取决于实体文本描述的质量。在本文中,我们确定了大型语言模型(LLM)是否能够生成有效的文本的关键问题。为了提升LLM生成文本的质量,我们引入了一个基于约束的提示,该提示利用实体及其文本描述作为上下文约束。我们的约束提示知识图补全(CP-KGC)方法在计算资源有限的情况下证明了有效的推理能力,并且在WN18RR和FB15K237数据集上超越了先前的结果。这表明LLM在KGC任务中的整合具有潜力,并为未来的研究提供了新的方向。
CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models_第1张图片

INTRODUCTION

我们提出两个主要因素影响模型的性能:

  • 首先,文本数据的质量至关重要。与基于嵌入的方法相反,在KGC中,使用实体文本信息进行模型训练是文本方法的显著特点。文本信息不足或多余可能限制模型的效果。从上图中可以观察到,一词多义经常影响模型的输出结果。以实体‘SpiderMan 3’为例;它既可以指'视频游戏的名称,也可以指'电影的名称。直接查询LLM通常只会产生一个结果,这不一定符合我们的期望。
  • 其次,在使用LLM生成文本实体描述时,模型可能偶尔出现生成幻觉,导致引入错误信息。借助LLM的最新进展,我们引入了受限提示知识图完成(CP-KGC)方法。该方法为KGC数据集制定了受限提示,使LLM能够重新生成文本实体描述。LLM具有强大的文本生成能力,使它们在生成知识图中实体的文本描述方面非常有价值。目前,LLM处于不断演进的状态,正在进行持续优化和更新,期望进一步提升其能力。因此,我们引入了一种受限提示方法,以限定模型输出的范围,从而在一定程度上缓解LLM中生成幻觉的问题。
  • 此外,还有可能自动生成KGC的高质量提示,为与KG任务相关的大型模型的整合提供了一种替代方法。在这项研究中,我们比较了GPT-3.5和GPT-4,利用开源的低参数模型,探讨了大规模模型与与KG相关任务的协同整合。具体而言,我们采用了Qwen-7B-chat和LLaMA2-7B-chat模型,以增强基于数据驱动的文本方法,并在资源受限条件下实现高效推理。
  • 我们使用了三个广泛认可的数据集(WN18RR、FB15K237和UMLS)来评估CP-KGC。为了评估生成数据的效果,我们采用了SimKGC作为基准模型。CP-KGC在多个指标上表现出优越的性能,如评估指标(MRR、Hits@1,3,10),从而确认了生成数据的有效性。此外,我们验证了低参数模型与具有不同参数的大模型相比的有效性。我们希望CP-KGC能有助于发展改进的KGC系统。

METHODOLOGY

CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models_第2张图片
为了能够产生高质量的文本描述信心E-Text采用一下两种方法:

Prompt for Longtext

  • 大多数基于文本的知识图谱方法依赖于使用transformer架构的预训练语言模型。这类模型在处理文本时具有自注意机制,使它们能够根据上下文动态关注输入文本的不同部分。这种能力使它们能够高效捕捉文本中的重要信息,同时减弱冗余和不太关键的细节。例如,BERT这样的模型在面对更长、更冗余的文本(来自FB15K237的E-text)时,可能会识别文本中的重复信息。这种识别可能导致注意力的部分分散,产生对整个文本的略微分散的表示。
  • 此外,冗余表达可以增加模型处理文本的复杂性,因为它必须筛选重复的信息以提取关键细节。尽管预训练机制在在一定程度上帮助模型有效地处理冗余,但过长或重复的文本可能会构成性能瓶颈。
    Prompt   for   Longtext:   Please   summarize   the   following   text   in   onesentence:   “the   long   text   from   entity.” \textbf{Prompt for Longtext: Please summarize the following text in onesentence: “the long text from entity.”} Prompt for Longtext: Please summarize the following text in onesentence: “the long text from entity.”
  • 一般而言,E − text 表示那些通过预处理或手动编辑难以实现简明和全面的提炼的文本。像GPT3.5这样的LLM展现了出色的文本生成能力,但可能无法解释所有实体(例如,重复的人名或一词多义)。LLM只能基于它们从大规模语料库中获取的统计知识生成文本,缺乏深入理解实体的能力。此外,由于LLM生成文本依赖于统计概率,存在它们可能生成不准确或不合理文本的情况,这一现象在大型模型中被称为“幻觉问题”。为了增强文本生成的效率,我们在输入实体旁边提供了上下文约束,以引导LLM生成更相关和理性的文本。

Prompt for Synonyms

WN18RR是一个用于知识图谱中链接预测的标准数据集,源自WordNet,是WN18数据集的扩展和精炼版本。该数据集包含各种关系类型,包括上位词、整体部分、同义词等连接。与FB15K237相比,WN18RR的E − text较短,主要包含对实体的简明解释或示例句。此外,某些E − text条目包含同义词。因此,我们通过利用实体及其解释内容作为与E − text互补的资源,为推断同义词表制定提示。 Prompt   for   Synonyms:   Give   synonyms   for   “entity”   based   on   thecontent   of   “the   description   of   entity.” \textbf{Prompt for Synonyms: Give synonyms for “entity” based on thecontent of “the description of entity.”} Prompt for Synonyms: Give synonyms for “entity” based on thecontent of “the description of entity.”
在Prompt中,“实体”指的是WN18RR中的实体,“实体的描述”表示E−text。例如,以“"restitution”为例,它在数据集中有两个不同的含义。第一个含义是“作为对损失或伤害的赔偿而支付的一笔钱”,而第二个含义是“将某物恢复到其原始状态的行为”。通过使用“同义词提示”,我们可以推导出对应于这些含义的同义词:对于前者,: [’compensation’, ’recompense’,’indemnification’] ,对于后者 [’renewal’, ’reinstatement’,’restoration’]。
在同义词提示中包含实体及其相关的解释文本具有几个优点。首先,实体“restitution”具有多重含义,仅提供一个实体可能导致同义词与当前上下文不符,可能降低生成文本的质量。其次,WN18RR数据集中有12873个重复实体,从原始实体的解释中得出同义词可以确保更高的准确性。预训练语言模型是在庞大的数据集上训练的,并具有强大的泛化能力。为了评估LLM生成的内容的准确性,我们使用“bert-base-uncased”模型确定最相似的同义词,并对其进行精炼设置相似度阈值。

KGC model

选择SimKGC作为基础的补全模型。
模型的评分函数如下:
CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models_第3张图片

EXPERIMENTS

模型实验结果如下:
CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models_第4张图片
相比之下,使用大模型优化文本描述信息,效果更好一些,但是提升并不是太多。
文本描述信息采用不同的大模型进行数据优化,FB15k-237上采用Qwen-7B-chat,WN18RR则是采用LLaMA2-7B-chat。
并且测试不同大模型的生成文本的效果,进行消融比较,结果如下:
CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models_第5张图片
语言模型(LLM)的文本生成能力因其参数大小而异。在这项研究中,我们使用了开源可部署的LLM,即Qwen-7B-chat和LLaMA-2-7B-chat,它们分别具有70亿个参数,以及更大的LLaMA-2-13B-chat,具有130亿个参数。值得注意的是,Qwen-7B-chat是该模型的量子化版本,使其适用于较低资源使用场景。此外,我们还使用了GPT3.5-turbo和GPT4模型,它们不是开源的,但通过付费API进行比较分析的目的访问。这个决定旨在探讨在资源受限的情境中LLM和KGC的协同潜力,从而为将LLM整合到知识图谱领域的新方法开辟途径。
正如表3所示,在FB15K237中,CP-KGC-LLaMA-2-13B-chat表现出最高的性能,Qwen-7B-chat紧随其后。这两个模型在一系列指标上均超过了原始指标。CP-KGC-GPT3.5-turbo在所有指标上都表现出性能下降。在WN18RR中,CP-KGC-LLaMA2-7B-chat取得了最佳结果,其余模型也表现出不同程度的改善。这个实验的结果表明,模型参数的增加并不总是与性能提高相一致。

CONCLUSION

在这篇论文中,我们介绍了CP-KGC,这是一种采用了约束提示的直接方法。我们认识到中心挑战在于限制LLMs生成有意义的文本。CP-KGC充分利用先进的LLMs,采用实体及其文本描述作为上下文约束。在WN18RR和FB15K237数据集上的实验结果表明,CP-KGC能够提升先进模型的性能。

你可能感兴趣的:(prompt,知识图谱,语言模型)