Scientific Language Models for Biomedical Knowledge BaseCompletion: An Empirical Study

摘要

生物医学知识图(KGs)包含关于疾病、药物和基因等实体的丰富信息。预测这些图表中缺失的环节可以促进许多重要的应用,如药物设计和重新利用。最近的工作表明,通用域语言模型(lm)可以作为“软”KG,并且可以对它们进行微调,以补全KG的任务。在这项工作中,我们研究了KG补全的科学lm,探索我们是否可以利用它们的潜在知识来增强生物医学链接预测。我们评估了几个领域特定的lm,在以药物和疾病为中心的数据集上对它们进行微调,我们将这些数据集表示为kg,并使用文本实体描述来丰富它们。我们将基于lm的模型与KG嵌入模型集成,使用 router方法学习将每个输入示例分配给任何类型的模型,并提供了性能的大幅提升。最后,我们证明了LM模型在新的科学实体归纳设置中的优势。

我们在生物医学领域对基于lm的KG完成进行了广泛的研究,重点研究了以药物和疾病为中心的三个数据集,其中两个数据集迄今尚未用于KG完成任务。为了能够探索基于lm的模型,我们收集缺失的实体描述,在所有数据集中获得超过35k个实体的描述。我们评估了在不同生物医学语料库上预训练的一系列KGE模型和特定领域的科学lm [Beltagy等人,2019,Lee等人,2020,Alsentzer等人,2019,Gu等人,2020]。我们对这两种类型的模型所做的预测进行了分析,发现它们具有互补的优势,与最近在一般领域的工作中所做的类似观察相呼应[Wang等人,2021],并激发了文本和图形形式的集成。与以前的工作不同,我们训练了一个路由器,为每个输入实例选择哪种类型的模型可能做得更好,发现它通常优于基于平均的集成。文本和图形模式的集成在平均互反秩(MRR)上提供了13 - 36%的实质性相对改进,并且跨多个基于lm的模型的路由进一步提高了结果。最后,我们展示了基于lm的模型在应用于训练期间未见的

你可能感兴趣的:(知识图谱的文本动态补全,语言模型,人工智能,自然语言处理)