大家好,我是CHEONG,最近在分享知识图谱入门和构建相关的文章。CHEONG在前年有过大半年实体链接相关的工作经验,实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务,是解决实体间存在的歧义性问题,是知识图谱构建过程中的核心技术。
本文将调研的实体链接相关研究进行了一个总结,写了个不算全面的综述,在此分享给大家!欢迎关注公众号【AI机器学习与知识图谱】
一、Entity Linking定义及挑战
二、Entity Linking任务应用
三、Entity Linking关键技术
四、Entity Linking前沿文献20篇
五、参考文献列表
实体链接是将文本中提到的实体与其知识库中相应的实体链接起来的任务,是解决实体间存在的歧义性问题。详细来说,给定一个富含一系列实体的知识库与已经标注好mention的语料,实体链接任务的目标是将每一个mention匹配到知识库中它所对应的实体上面,如果知识库中没有mention对应的实体,则认为该mention不可链接到当前知识库,标记为NIL。
(4) 实体间会存在高度的歧义性,具体表现为多词同义和一词多义这两个方面,多词同义是指一个实体可以用多个实体指称来表示,比如孙中山,又叫孙文,字载之,都是指孙中山这个人物,而一词多义是指一个实体指称可以表示多个实体,比如阿里巴巴这个指称是一个公司的名,同样也可以指《一千零一夜》中的一个故事人物。
4、Knowledge basepopulation:扩充知识库,更新实体和关系。
实体链接的第一步得先识别出文本中的实体,被称为NER。命名实体识别(NamedEntity Recognition)是识别出文本中的人名、地名等专有名称和有意义的时间、日期等相关实体并加以归类。而且NER的准确度将直接影响到下有任务实体连接的效果,因此至关重要。
1.2 方案
下面给出一份自2016年以来出众NER模型的相关统计比对信息,供参考(下图感谢周同学的调研工作),关于NER详细调研内容关注公众号加微信获取。
2、候选实体生成2.1 简述
候选实体集的生成是根据文本中已有的指称项,去知识库中召回与之相关尽可能多的实体,该过程要求较高的召回率。
2.2 方案
1、构建同义词表同义词表指的是,名字大致相同的情况。注意与别名词表的区分。可以根据百科中(Wiki百科)的重定向页面,抽取同义词,或者从Wiki百科中首段加粗内容抽取同义词。
2、构建缩写全称映射表
(1) 对于人名,名字扩展成为全称。如Brown扩展成John Brown。(2) 对于大写缩写,可根据库中实体核对首字母。如:IBM扩展成International Brotherhood of Magicians。(3) 对于地名,可根据地名表扩展。如:US扩展为United States。3、构建别名词表
别名词表,内容大致为名称不太相同,但是意义一致的内容。如:鲁迅与周树人。可根据wiki中的锚文本信息中抽取别名。
4、基于编辑距离召回实体
给定指称项,根据实体计算知识库中候选实体与实体的编辑距离,小于阈值则可以召回。编辑距离:是指两字字符串A、B的字面相似度。是指字符串A到字符串B(增加一个字符,删除一个字符、替换一个字符),所需的最少编辑操作次数。
5、基于词向量相似性召回实体
根据文本训练词向量,将实体的词向量与文本中的词向量计算词向量之间的相似度,例如余弦相似度等。
论文名称:Deep Joint Entity Disambiguation with Local Neural Attention (EMNLP 2017)
核心思想:本文核心的创新点是提出了一种局部Entity Disambiguation注意力机制,主要思想是只有少数上下文词汇能够提供信息来解释实体模棱两可的含义,大部分的词是无用的,因此将注意力集中在选择消歧决策提供信息的词语,这样模型只关注少量重要的词汇,减少了不必要的噪音词汇。
2、Multi-Relation Model
论文名称:Improving Entity Linking by Modeling Latent Relations between Mentions (ACL 2018)
核心思想:本文主要在LocalModel和Global Model的基础上进一步发掘Mention和Mention之间的Latent Relations,文中假设Mention和Mention之间存在Multi-Relational,有k种关系,然后对每种关系计算Local Score和Global Score,同时对关系得分取最终得分时使用了不同的正则化方式,如对RelationNorm和对Mention Norm:Rel-norm:Relation-wise normalization,就是以关系k维度来norm;Ment-norm:Mention-wise Normalization,就是以实体j维度来norm。
论文名称:Joint Entity Linking with Deep Reinforcement Learning(WWW 2019)
核心思想:本文考虑到之前的Global模型存在两个很大的问题,一是利用全局信息计算候选实体得分时会增加模型的复杂度并且会引入噪音信息;二是先前错误的实体将会导致后面实体消歧的累积误差。该模型从全局角度进行决策。我们的模型充分利用了先前提到的实体,并探讨了当前选择对后续决策的长期影响。
4、End-to-End Learning
论文名称:End-to-End Neural Entity Linking(CoNLL 2018)
核心思想:本文提出端到端模型,一定程度上更能够发现现有拓扑中未知的实体。总体而言比较容易理解其过程,就是将实体识别过程和链接匹配过程连在一起,获取mention的embedding而后直接在模型内部进行相似性匹配操作。
论文名称:Joint Learning of Named Entity Recognition and Entity Linking
核心思想:实体匹配是指将识别到的实体与知识库或者图谱中实体进行匹配与映射。因此实体匹配与识别是两个相关性非常高的任务,通过实体匹配,识别到的实体与现实中的概念相连接。本文将实体匹配与识别统一起来训练,认为两个任务一起学习,能够提升两个任务的准确率。
(1) AggregatedSemantic Matching for Short Text Entity Linking (CoNLL 2018)
核心思想:长文本能更好的利用全局信息,global scores在短文本中不能很好地使用,本文在noisy and short text上更多的去挖掘local information,并且只使用了local information去计算mention和candidate entity之间的相似度,sim(m,ttl), sim(m, desc), sim(ctx, ttl), sim(ctx, desc)四个local similarity,模型上则使用了Representation-focused model and interaction-focused model neural model for semantic matching in fourtext pairs,最后使用rank aggregation对entity排序,模型细节如下:
核心思想:本文认为短文本没有充足的上下文信息且部分是残缺的,本文最大的特色在于用DBpedia + Wikidata + Oxford Dictionary + WordNet构建了一个Extended Knowledge Graph, 在此基础上知识库建立完成,然后对Query的处理则首先Pos Tagging区分对待动词和名词,且利用英文词的特性利用组合词和首字母辅助任务,候选词的生成在KG上使用elastic search,最后用基于KG进行候选集排序,其中还用到了N-gram对Query中实体分割,模型细节如下:
(3) Entity Linking for Chinese Short Text Basedon BERT and Entity Name Embedding
(ccks 2019)
核心思想:传统实体链接任务主要是针对长文本,拥有完整的上下文信息,有助于实体识别与实体消歧。由于口语化、方言和短文本不足的上下文,中文短文本实体链接尚具挑战。本文对中文短文本进行了探讨,模型细节如下:
(1) Boosting Entity Linking Performance by Leveraging Unlabeled Documents (ACL 2019)
(2) Zero-shot Entity Linking by Reading Entity Description (ACL 2019)
(3) Distant Learning for Entity Linking with Automatic Noise Detection (ACL 2019)
核心思想:以上三篇都是针对于没有标注数据的情况下,在无标注数据下,利用上下文信息实现Entity Linking。
(4) Improving Neural Entity Disambiguation with Graph Embedding (ACL 2019)
核心思想:只提出一个核心的东西,就是利用KG的结构化数据使用DeepWalk构建Graph Embedding,并且在两个实验上证明了Graph Embedding的效果对于Entity Linking的提升,其中一个实验用的模型和代码是论文End-to-End Neural Entity Linking,将其中的TextEmbedding换成了Graph Embedding。
(5) DiaNED: Time-Aware Named Entity Disambiguation for Diachronic Corpora (ACL 2018)
核心思想:本文是针对特殊领域数据Diachronic Corpus上做NED,文中提到之前的NED都是针对于某个短暂时间的实体消歧,对于时间跨度很大的数据处理效果不好,本文就针对于时间长跨度的数据提出命名实体消歧,通过计算Mention和All Entities之间的时间相似度。
(6) List-only Entity Linking (ACL 2017)
核心思想:本文首先考虑到Knowledge Base可能是稀疏的,Entity没有充足的信息,因此将关注点放在Seed Mentions上,在计算Mention和Entity之间分数前,先看Mention和Seed Mention之间的关系。Seed Mention选择,通过聚类选取最大的聚类作为Seed Mentions,在计算分数的时候用到了Entity Type(Loc, Per等)和Mention Textual Context。
(1) Learning Dynamic Context Augmentation for Global Entity Linking (EMNLP2019)
核心思想:本文指出Global Model在计算相似度时的复杂度高,提出了一种Dynamic Context Augmentation的方法来融合global signal,在提高Entity Linking效果的同时降低了运算复杂度,文中用两种方法实现了DCA,一种是标准的监督模型框架,另一种是强化学习框架,并且将DCA用到了两个已经有的Local Model上进行试验,效果好,本文有提供源码,可以考虑作为基模型使用,本文核心目的也就是利用DCA方法学习到Global Information。
(2) Fine-Grained Evaluation for Entity Linking (EMNLP 2019)
核心思想:本文核心不是做Entity Linking,作者考虑到Entity Linking没有一个一致的评判标准,因此对不同类型的Mentions, Entities, Links进行一个细粒度的划分,对数据进行细粒度划分之后再给出统一的评估标准,评估EL模型的效果。
(3) Improving Fine-grained Entity Typing with Entity Linking (EMNLP 2019)核心思想:本文工作主要是对Entity类别进行分类,Thefine-grained entity type classification,其中entity linking知识用来给entity分类的一个工具。
(4) Effective Use of Context in Noisy Entity Linking (EMNLP 2018)
核心思想:本文主要考虑在Noisy and Short Text中,如何更好地提取Mention的上下文信息。文中认为对于稀疏的特征难以提取,而想更充分的挖掘Mention的上下文和Entity之间的相似性,因此提出了一些新的方案,例如对Mention的上下文分别进行Representation,计算Left Context, Right Context和Entity之间的多种关系,使用Character CNN提取特征(但效果优化不明显),最后还是用看Mention Context和Entity之间Overlap Feature,没有源码。
(5) Entity Linking within a Social Media Platform: A Case Study on Yelp (EMNLP 2018)
核心思想:本文主要考虑在一个社交媒体平台上Entity Linking任务中target entities没有很多的信息描述,针对此问题提出了新的解决方案。首先本文创造了一份自己的数据集,针对于该数据集因为Entity没有充足的上下文信息,因此本文针对此份数据集相对于conventional features,提出了Social Features和Location Features,其中Social Features是看Mention和Entity之间是否有User等social relations,比较多的情况下就认为Mention和Entity之间强关系,Local Features则是看是否在同一个城市等位置信息。
(6) Entity Linking via Joint Encoding of Types, Descriptions and Context (EMNLP 2017)
核心思想:本文在计算Mention和Entity之间相似度时引入了Fine-Grained Types,同时结合了Mention-Context(local context and Document Context)和Entity Description的分数,特殊之处在于引入了Mention和Entity的Fine-grained Types,即是同样类型的Mention匹配同样类型的Entity。
(7) Entity Linking for Queries by Searching Wikipedia Sentences (EMNLP 2017)
核心思想:本文提出了一个Entity Linking方法用在Query中,本文的亮点是使用了直接评估query和Wikipedia articles之间的相似度,排序使用的是Regression Based Framework。
(CCKS 2019)
往期精彩
【知识图谱系列】基于2D卷积的知识图谱嵌入
【知识图谱系列】知识图谱的神经符号逻辑推理
原创不易,那就点赞,收藏,转发三连呀!欢迎关注公众号【AI机器学习与知识图谱】