实体消歧

  • 研究背景概述

    • 一般来说,由于自然语言存在较多的一词多义(相同的实体指称在不同的上下文中可以指向知识库中的不同实体)或多词一义(知识库中的同一个实体在文本中有不同的指称)的现象,实体识别的结果很难直接加入到知识图谱当中。必须要对实体识别的结果进行消歧,才能带到无歧义的实体信息。
    • 应用领域
      • 知识图谱构建(实体识别)、信息检索、问答系统等
  • 任务分类

    • 一般来说,实体消歧系统可以按照目标实体(知识库)是否给定分为基于聚类的消歧系统和基于实体链接的消歧系统;也可以按照是否为结构化文本进行划分。
    • 按是否给定知识库分类(非结构化文本)
      • 基于聚类的消歧系统
        • 定义:目标实体列表(知识库)未给定,以聚类的方式对实体指称进行消歧。指向同一个目标实体的指称被聚类一个簇。
        • 消歧过程
          • 对于每一个实体指称,抽取特征(上下文词、实体、概念、类别),形成特征向量
          • 计算实体指称间的相似度
          • 采用聚类算法对实体指称项聚类,使得每个簇都指向同一个目标实体
        • 按照实体指称项相似度计算方式,可以将消歧系统分为三类
          • 基于表层特征的相似度计算
            • 词袋子模型,将文本的每个术语表示向量形式,如TF-IDF等,然后使用余弦等计算相似度
            • 缺点:没有考虑上下文之间的语义关联
          • 基于扩展特征的相似度计算
            • 使用知识资源扩展实体指称项的特征表示,例如wikipedia的infobox等。这些扩展的属性信息还可以提供更准确的实体指称项信息,例如邮箱,电话等。
          • 基于社会化网络的相似度计算
            • 基于上下文中的不同实体指称构建语义关系,通常是基于图的方法,能够充分利用结构化的语义关系只是。
            • 缺点是不能充分的利用上下文中的其他信息
      • 基于实体链接的实体消歧系统
        • 通过将实体指称项与目标实体列表中对应的实体进行链接实现消歧,类似于 #跨文档共指消解
        • 又称: #record-linkage 、 #entity-disambiguation 、 #entity-Resolution
        • 实体链接的思想:选出与当前实体指称最符合的目标实体
          • e ∗ = a r g max ⁡ e ∈ K B S c o r e ( e , s i , d , K B , E ) e*=arg \max_{e\in KB} Score(e,s_i,d,KB,E) e=argmaxeKBScore(e,si,d,KB,E)
            这里d为查询文档,si为第i和实体指称,e*为目标实体,KB为给定的知识库,E(Encyclopedic)为外部知识库
          • 任务描述:将文档d中的实体指称链向知识库KB中目标实体e*,实体链接的过程,也就是获取打分的过程。为了将第计算复杂度,一般会先通过候选过滤,生成一个候选实体列表。
          • 成对(实体指称-目标实体)
            • 实体指称及其所在的上下文和所在查询文档,实体指称的内联或 外联信息;目标实体的百科描述(概念、类别、词条信息),目标实体的内联和外联信息
            • 类别信息是指:通过实体上下文中出现的类别信息确定目标实体。比如苹果的上下文中如果出现公司,则极有可能指向苹果公司。
          • 全局(实体指称组(上下文)-目标实体组(关联关系))
            • 上下文实体指称间和上下文目标实体间的协同关系
          • e = a r g max ⁡ e S c o r e ( e , m ) e=arg\max_e Score(e,m) e=argmaxeScore(e,m)
            • 其中, S c o r e Score Score为打分函数,Score的计算主要围绕对实体与实体、实体与文本、文本与文本之间的相似度进行研究,上述公式就是计算与m最契合的那个目标实体
        • 消歧过程
          • 候选生成:根据规则或知识生成实体指称可能链向的目标实体列表
          • 候选排序:对目标实体列表进行排序(计算Score),确定实体指称所要链接的目标实体
        • 候选生成的方法
          • 基于别名的方法
          • 基于字符串相似度匹配
          • 网页检索、重定向
        • 候选排序
          • 根据 S c o r e Score Score的不同,可以将现有的消歧方法分为四种

          • 向量空间模型

            • 基于实体指称和目标实体的上下文特征的共现信息来确定,将其根据上下文和概念、类别等表示为向量,然后计算向量之间的相似度进行排序。

            • 特征表示:使用上下文的词、上下文的概念的实体、从知识源中获取实体指称项的额外信息等
              当前的研究重点

              • 参考文献
                Linking Documents to Encyclopedic Knowledge
                Using Encyclopedic Knowledge for Named Entity Disambiguation
                Large-scale named entity disambiguation based on Wikipedia data
                Scaling Wikipedia-based named entity disambiguation to arbitrary web text
            • 计算相似度:余弦相似度、统计学习方法分类、上下文词重合度

          • 主题一致性

            • 利用候选实体和实体指称的上下文实体计算语义关联程度,进行排序
            • 通过计算候选实体与其他实体指称的关联程度来进行排序,算法原理如下
              • 上下文实体的重要程度:衡量一个实体 e e e与文本中指称的上下文实体指称 O O O的相关性程度
                • w ( e , o ) = ∑ e i ∈ O s r ( e , e i ) ∣ O ∣ w(e,o)=\frac{\sum_{e_i \in O}sr(e,e_i)}{|O|} w(e,o)=OeiOsr(e,ei)
                  其中, s r ( e , e i ) sr(e,e_i) sr(e,ei)表示两个实体的语义关联程度,通常基于知识库进行计算
                  其实,这个计算了和实体e存在语义关联的上下文实体指称所占的比例
              • 一致性计算:计算目标实体与实体指称项上下文实体的一致性
                • C o h e r e n c e ( e , o ) = ∑ e i ∈ O w ( e , o ) s r ( e , e i ) ∑ e i ∈ O w ( e , o ) Coherence(e,o)=\frac{\sum_{e_i \in O} w(e,o)sr(e,e_i)}{\sum_{e_i \in O}w(e,o)} Coherence(e,o)=eiOw(e,o)eiOw(e,o)sr(e,ei)
                  其中o是实体指称项,w(e,o)是实体e的权重
            • 参考
              Topic indexing with Wikipedia
              learning to link with wikipedia
              Joint Learning of the Embedding of Words and Entities for Named Entity Disambiguation
              Deep Joint Entity Disambiguation with Local Neural Attention
          • 协同实体链接

            • #Collective-entity-linking
            • 基于主题一致性,进一步假设查询文档中所有实体指称的目标实体也应该是相互关联的
            • 将链接任务转化为优化任务
              • 1 ( ∣ S o ∣ 2 ) ∑ s ̸ = s ′ ∈ S o r ( y s , y s ′ ) + 1 ( ∣ S o ∣ ) W T f s ( y s ) \frac1{\begin{pmatrix} {|S_o|}\\2 \end{pmatrix}} \sum_{s \not=s' \in S_o}{r(y_s,y_s')+\frac1{(|S_o|)}W^Tf_s(y_s)} (So2)1s̸=sSor(ys,ys)+(So)1WTfs(ys)
                y s y_s ys表示实体指称项s的目标实体 S o S_o So表示单篇文档中所有实体指称的集合, r ( y s , y s ′ ) r(y_s,y_s') r(ys,ys)表示目标实体之间的语义关联, f s ( y s ) f_s(y_s) fs(ys)表示实体指称项s与目标实体 y s y_s ys得一致性打分。
                上述公式的第一部分是计算所有目标实体之间的语义关联性,然后计算实体指称与其对应的目标实体之间的关联程度
            • 基于图的方法
            • randdomwalk
              Robust named entity disambiguation with random walks
              Robust entity linking via random walks
              From tagme to WAT: a new entity annotator
              Graph ranking for collective named entity disambiguation
              Entity linking meets word sense disambiguation: a unified approach
            • pseudo
              Robust and Collective Entity Disambiguation through Semantic Embeddings
              2016
            • dense subgraph
              Robust disam- biguation of named entities in text
              参考文献
              Collective annotation of Wikipedia entities in web text
              Collective entity linking in web text: a graph-based method
              基于图的集体实体链接:随机游走
              An Approach to Collective Entity Linking
              Collective Entity Resolution with Multi-Focal Attention
          • 基于神经网络的实体消歧方法

            • 将深度学习的方法应用于实体消歧,例如卷积神经网络,或者 #knowledge-embedding #neural-networks 等
            • 参考文献
              collencive ::Neural Collective Entity Linking
              https://github.com/TaoMiner/NCEL 2018 code
              Learning entity representation for entity disambiguation
              2013
              Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks
              2015
              Leveraging Deep Neural Networks and Knowledge Graphs for Entity Disambiguation
              2015
              Capturing Semantic Similarity for Entity Linking with Convolutional Neural Networks
              2016 code
              Modeling Mention, Context and Entity with Neural Networks for Entity Disambiguation
              CNNS 2015
              Pair-Linking for Collective Entity Disambiguation: Two Could Be Better Than All
              Mention and Entity Description Co-Attention for Entity Disambiguation
              lstm-attention的消歧方法
              Entity Disambiguation by Knowledge and Text Jointly Embedding
              主要是介绍了embedding的方法
              Entity Linking via Symmetrical Attention-Based Neural Network and Entity Structural Features
    • 按文本结构
      • 区别在于实体指称项的文本表示
      • 半结构化文本消歧
        • 有语境上下文辅助消歧
      • 结构化文本消歧
        • 缺少上下文,主要依赖于字符串比较和实体关系信息完成消歧
        • 现在主要有利用实体流行度和上下文实体联合消歧的方法、网页检索。
  • 评测

    • WePS评测
      • 针对基于聚类的命名实体识别进行评测
      • 评价指标
        • 纯净度
          • $ Purity=\sum_i \frac{|C_i|}n \max_jPrecision(C_i,L_j) $
            • 其中,单个聚类的准确率定义如下:
              • $ Precision(C_i,L_j)=\frac{|C_i \cap L_j|}{C_i} $
            • C i C_i Ci表示第 i 个簇, L j L_j Lj指第 j 个准确的聚类结果,公式2表示 C i C_i Ci划分到最可能的聚类结果下时,链接成功的实体指称所占的比例。
        • 倒纯净度
        • F值
    • TAC KBP 评测
      • 针对基于实体链接的实体的方法进行评测
      • 要求对于知识库中没有的实体需要进行聚类,将同一实体的不同指称项聚类到一起
      • 评测指标
        • micro-average accuracy
          • M i c r o = ∑ q ∈ Q σ [ L ( q ) , C ( q ) ] ∣ Q ∣ Micro=\frac {\sum_{q\in Q} \sigma[L(q),C(q)]}{|Q|} Micro=QqQσ[L(q),C(q)]
          • 其中,Q是所有查询的集合, L ( q ) L(q) L(q)是实体链接系统基于查询q给出的目标实体ID, C ( q ) C(q) C(q)是查询q的准确目标实体, σ \sigma σ函数判断两个ID是否一致,是则为1,否为0。
  • 参考文献

    • 赵军 知识图谱

你可能感兴趣的:(知识图谱,实体消歧,Entity,disambiguation)