论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战

论文笔记整理:谭亦鸣,东南大学博士。


论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第1张图片

来源:EMNLP 2020

链接:https://arxiv.org/pdf/2005.00692.pdf

1.背景介绍

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第2张图片

跨语言实体链接(XEL)旨在将任一非英语文本中的实体提及匹配到英语知识库上(例如Wikipedia,图1所示)。近年来,大批研究成果被提出,但是现有的技术并不能很好的处理低资源语言(LRL)的挑战。且这些技术并不能轻松扩展到非基于Wikipedia的数据上(训练数据主要来自Wiki)。本文对LRL上的跨语言实体链接技术进行了深入分析,重点研究了识别与给定候选实体的关键步骤。作者的分析表明,现有方法受限于Wikipedia的inter-languagelinks,但是在(Wiki中)语言规模较小的情况下性能拉跨。作者推断基于LRL的XEL需要借助于Wikipedia之外的跨语言资源,并且构建了一个简单有效的zero-shot XEL系统,名为QuEL,其实现利用了搜索引擎的查询日志。在25种语言的实验上,QuEL表现出平均达到25%的gold候选召回率提升,以及基于现有SOAT端到端实体链接模型13%的准确性提升。

缺陷分析与动机

作者首先发现,现有的XEL模型大都严重依赖于Wiki所提供的interlanguagelinks(ILLs)资源,但是如图2所示,ILLs(B)仅仅覆盖了LRL实体(A)中的一个小子集,因此能够被直接使用的部分主要是B∩C的区域。例如,Amharic Wikipedia 涵盖 14,854个条目,但其中仅有8176的部分具有指向英文的ILLs。因此现有的效果较好的候选实体生成模型所使用的数据集大多是基于Wikipedia的,但是对于非Wiki-based的文本和新闻或者社交媒体之类的数据则不具备这样的效果。

因此,本文的动机可以描述为,LRL-based XEL需要使用Wiki以外的跨语言数据,以覆盖更多类似图2中A区域的实体(从而跳出研究对Wikipedia数据集的依赖,且增加其实际可能的使用范围)。

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第3张图片

2.模型/方法

Wikipedia外部数据说明

作者使用了Query logs(QL)数据集,一个免费的在线百科资源,涵盖了wiki中的跨语言子集,且整体数据规模相对Wiki大很多。该数据集已经被使用到一些研究任务中,包括跨领域NER和本体知识的获取。本文是该数据集第一次被用于跨语言任务。

候选生成分析:

本文对四种候选生成方法进行分析:p(e|m), xlwikifier, name_trans, pivoting, 以及 translit(如表1所示)

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第4张图片

分析上述方法使用的数据集是LORELEI(内容形式是新闻和社交媒体文本),所有都是Wikipedia外部数据,评价指标是goldcandidate recall,即候选列表中涵盖gold英文实体的源语言提及的比例。

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第5张图片

图3给出了Wikipeida中ILLs对LRL覆盖的不足(2019-10-20版本),表2给出了随机筛选的5个LRL的源语言实体占比。

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第6张图片

p(e|m)的workflow是:源语言提及->源语言wiki实体->英语(目标语言)wiki实体。在这个过程中只要一个link缺失,那么整个过程就无法进行。

name_trans: 它的翻译性能则受限于wikipedia中的映射标签。

translit以及pivoting则同样受到训练数据集规模不够的限制。

  在LRL的设定下,较少的Wikiarticles引发了更少的Wiki锚文本映射。作者在LRL(图4上)与HRL(富资源语言,图4下)上对现有方法的goldcandidate recall以及其对提及在Wikipedia中的覆盖率对比。

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第7张图片

改进的候选生成QuEL_CG

通过使用QL映射文件,作者在直接搜索源语言提及以及基于查询的方法下获取到高质量候选列表。在搜索引擎方面作者使用了GoogleSearch。该方法也可以与p(e|m)一起使用,以强化QL的鲁棒性。

3.实验

数据集

LORELEI (Strassel and Tracey, 2016),涵盖了新闻和社交媒体方面的文本数据,作者将其中的25种语言分为了LRL与LRL。其中包含了四种实体类型:GPE地缘政治实体;LOC地点实体;PER人物实体;ORG组织实体。该数据集提供了一个特定的英语知识库,其中提及的内容都被链接到该知识库。作者将原始数据集改为链接到英文Wikipedia,对于没有链接的部分则使用原知识库的英文信息(名称和描述)从Wikipedia种进行检索。

Wikipedia-based数据集:(Tsai and Roth, 2016)收集的,建立于Wiki锚文本映射的基础上,涵盖的语言均为HRL。

对比系统:xlwikifier, xelms, ELISA, PBEL PLUS

实体链接结果

下表给出了不同类型实体的链接准确性实验结果。

论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战_第8张图片

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

你可能感兴趣的:(人工智能,python,编程语言,机器学习,java)