LP-Bert Multi-task Pre-training Language Model forSemantic Network Completion

摘要

虽然知识图在自然语言处理中有很好的应用价值,但它存在不完备性的问题。本文通过预测实体之间的联系来补全知识图,这是一项基础而关键的任务。语义匹配是一种潜在的链路预测解决方案,因为它可以处理不可见的实体,而基于平移距离的方法则难以处理不可见的实体。然而,为了达到基于翻译距离的方法的竞争性能,基于语义匹配的方法需要用于训练目的的大规模数据集,这在实际环境中通常是不可用的。为此,本文采用该语言模型,提出了一种新型的LP-BERT知识图体系结构,该体系结构包含两个主要阶段:多任务预训练和知识图谱微调。在预训练阶段,通过预测实体或关系来驱动模型从三元组中学习关系信息。在微调阶段,受对比学习的启发,我们分批设计了三种形式的负抽样,在训练时间几乎不变的情况下,大大提高了负抽样的比例。在此基础上,我们提出了一种新的基于三元反比的数据增强方法,以提高模型的性能和鲁棒性。

为了证明我们提出的框架的有效性,我们对三个广泛使用的知识图数据集WN18RR、FB15k-237和UMLS进行了广泛的实验。实验结果证明了我们方法的优越性,我们的方法在WN18RR和FB15k-237数据集上取得了最先进的结果。值得注意的是,Hits@10指标在WN18RR数据集上比之前最先进的结果提高了5%,而在UMLS数据集上达到100%。

1.介绍

本文提出了一种新的知识图预训练框架,即LPBERT。具体而言,LP-BERT采用语义匹配表示,利用多任务预训练策略,包括用于上下文学习的掩码语言模型任务(MLM)、用于实体语义学习的掩码实体模型任务(MEM)和用于关系语义学习的掩码关系模型任务(MRM)。通过预训练任务,LPBERT可以学习结构化知识图的关系信息和非结构化语义知识。此外,为了解决由于负抽样比低而导致训练不足的问题,我们在对比学

你可能感兴趣的:(知识图谱的文本动态补全,bert,语言模型,人工智能)