论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

论文笔记整理:潘锐,天津大学硕士。


论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测..._第1张图片

来源:AAAI 2020

链接:https://arxiv.org/pdf/1912.01795.pdf

摘要

义原被定义为人类语言的最小语义单位。义原知识库(KBs)是一种包含义原标注词汇的知识库,它已成功地应用于许多自然语言处理任务中。然而,现有的义原知识库建立在少数几种语言上,阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一的多语种义原知识库。首先建立一个数据集作为多语种义原知识库的种子知识库。它为超过1.5万个synset,并由人工手动标注若干义原。然后,首次提出并正式定义了BabelNet synset 义原预测任务,旨在将种子数据集扩展为一个可用的知识库。论文还利用了不同的synset信息提出了两个简单有效的模型。最后,进行定量和定性分析,探究任务中的重要因素和难点。


研究背景

人类语言可以划分成不同层次——句子可以划分成短语或词组,再进一步划分成词。词是最小的可以独立运用的单位,也是自然语言处理最常用的语言单位。但从语义层面讲,词还可以进一步细分为义原——也即语言学家定义的最小的语义单位。一些语言学家认为所有语言的所有词语的意思都可以用一个有限的

你可能感兴趣的:(机器学习,人工智能,知识图谱,自然语言处理,深度学习)