知识图谱学习笔记(六)——实体消歧

实体消歧

1. 实体消歧概述

1.1 实体消歧定义

  • 命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体。例如Michael Jordan可以表示篮球运动员,也可以表示计算机科学家,或者其他实体。
  • 确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧。

1.2 实体消歧分类

  • 基于聚类的实体消歧
    • 把所有实体指称项按其指向的目标实体进行聚类
    • 每一个实体指称项对应到一个单独的类别


      在这里插入图片描述
  • 基于实体链接的实体消歧
    • 将实体指称项与目标实体列表中的对应实体进行链接实现消歧


      在这里插入图片描述

2. 基于无监督的实体消歧

2.1 基于聚类的实体消歧

  • 基本思路

    • 同一指称项具有近似的上下文
    • 利用聚类算法进行消歧
    • 核心问题:选取何种特征对于指称项进行表示
      1. 词袋模型(Bagga 等人,COLING,1998)
      2. 语义特征(Pederson等人,CLIP,2005)
      3. 社会化网络(Bekkerman等人,WWW,2005)
      4. 维基百科的知识(Han 和 Zhao,CIKM,2009)
      5. 多元易购语义知识融合(Han 和 Zhao,ACL,2010)
  • 词袋模型

    • 利用待消歧实体周边的词来构造向量
    • 利用向量空间模型来计算两个实体指称项的相似度,进行聚类


      在这里插入图片描述
  • 语义特征

    • 利用SVD分解挖掘词的语义信息
    • 利用词袋和浅层语义特征,共同表示指称项,利用余弦相似度来计算两个指称项的相似度


      在这里插入图片描述
  • 社会化网络

    • 不同的人具有不同的社会关系


      在这里插入图片描述
    • MJ, Peppen, Buckley, Ewing, Kobe等的社会化关联信息所表现出来的网页链接特征,对网页进行聚类,从而实现网页内的人名聚类消歧。
  • Wikipedia方法

    • Wikipedia中相关试题具有链接关系。


      在这里插入图片描述
    • 这种链接关系反映条目之间的语义相关度
      [图片上传失败...(image-1b1810-1577697110288)]
    • 用实体上下文的维基条目对于实体进行向量表示
      [图片上传失败...(image-bd9a23-1577697110288)]
    • 利用维基条目之间的相关度计算指称项之间的相似度(解决数据稀疏问题)
      [图片上传失败...(image-ae8654-1577697110288)]
  • 多源异构知识方法

    • 仅仅考虑Wikipedia一种知识源,覆盖度有限
    • 多源异构知识的挖掘与集成
      • 知识源中存在大量的多源异构知识
      • 挖掘和集成多源异构知识可以提高实体消歧的性能
      • Wikipedia:用于捕捉概念之间的语义关联
      • WordNet:用于捕捉词语之间的语言学关联
      • Web网页库:用于捕捉命名实体之间的社会化关联
    • 多源异构知识的表示框架:语义图
      • 等同概念识别
      • 概念连接:同时捕捉显式语义知识和结构化语义知识
        • 语义图的边(显式语义知识):建模了所有从知识源中直接抽取出的概念之间的显式语义关联
        • 语义图的结构(结构化语义知识):建模了概念之间的隐藏语义关联
    • 语义图中语义知识的挖掘和融合算法
      • 计算原则:如果一个概念的邻居概念与另一个概念存在语义关联,则这个概念也与另一个概念存在语义关联
      • 语义关联在图中的传递性
        [图片上传失败...(image-83fee7-1577697110288)]
  • 小结

    • 主要研究集中在实体指称项的语义表示
    • 已有工作大多是通过扩展特征,增加更多的知识来提高消歧精度
    • 挑战:消歧目标难以确定;缺乏实体的显式表示。

3. 基于知识库链接的实体消歧

  • 实体链接的任务:给定实体指称项和它所在的文本,将其链接到给定知识库中的相应实体上。


    在这里插入图片描述
  • 主要步骤
    • 候选实体的发现:给定实体指称项,链接系统根据知识、规则等信息找到实体指称项的候选实体
    • 候选实体的链接:系统根据指称项和候选实体之间的相似度等特征,选择实体指称项的目标实体


      在这里插入图片描述
  • 候选实体发现
    1. 利用Wikipedia信息获取候选实体
      • 利用Wikipedia中锚文本的超链接关系
      • 利用Wikipedia中的消歧页面
        [图片上传失败...(image-46a994-1577697110288)]
      • 利用Wikipedia中的重定向页面
        [图片上传失败...(image-fa0970-1577697110288)]
    2. 利用上下文获取缩略语候选实体
      • 缩略语指称项具有很强的歧义性,但它的全称往往是没有歧义的
      • 解决方法:利用人工规则抽取实体候选
  • 候选实体链接

    • 基本方法:计算实体指称项和候选实体的相似度,选择相似度最大的候选实体
    • 单一实体链接
      [图片上传失败...(image-86bb1e-1577697110288)]
    • 协同实体链接
      [图片上传失败...(image-981071-1577697110288)]
  • 基于词袋子模型计算相似度

    • 将实体指称项上下文文本与候选实体上下文文本表示成词袋子向量形式,通过计算向量间的夹角确定指称项与候选实体相似度,系统选择相似度最大的候选实体进行链接。
  • 类别特征(Bunescu EACL 2006)

    • 动机:候选实体的文本内容可能太短,会导致相似度计算的不准确;加入指称项文本中的词与候选实体类别的共现特征
    • 方法:训练SVM分类器对候选实体进行选择;训练数据由Wikipedia中的超级链接获得;所采用的的特征(文本相似度;指称项文本中词与候选实体类别的共现信息)
  • 实体流行度等特征(Han ACL 2011)

    • 动机:传统的方法仅仅是计算实体指称项与候选实体的相似度,忽略了候选实体的背景知识与先验信息,如实体本身的流行度、实体与指称项的关系等
    • 方法:考虑实体的背景知识,将实体的背景知识融入到实体链接的过程,实体的背景知识和先验信息主要有:
      • 实体流行度:实体e在知识库中的概率P(e)
      • 名称的知识:指称项s指向实体e的概率P(s|e)
      • 上下文知识:实体e出现在特定上下文环境e的概率P(c|e)
  • 协同实体链接

    • 实体指称项与目标实体的语义相似度
    • 目标实体之间的语义相似度


      在这里插入图片描述
  • 协同学习策略

    • 同一片文档行中实体之间具有语义相似性
    • 利用Pairwise优化策略
      [图片上传失败...(image-53a16a-1577697110288)]
    • 目标实体的语义相关度计算方法:
      • 利用实体类别重合度计算目标实体语义相似度(cucerzan, EMNLP 2007)
      • 利用实体之间链接关系计算目标实体语义相似度(Kulkarni, KDD 2009)
  • 基于图的协同链接(Han SIGIR 2011)

    • 动机:Pairwise策略只考虑两两实体关系,结局不是全局最优的;采用图方法,全局考虑目标实体之间的语义关联
    • 方法:Referent Graph,两种关系构成
      1. 指称项与实体之间的关系:该指称项文本与实体文本的相似度,由传统的VSM模型得到
      2. 实体之间的语义关系:利用目标实体之间的链接关系计算实体之间的语义相关度
        [图片上传失败...(image-664c87-1577697110288)]
  • 基于深度学习的方法(He ACL 2013)

    • 动机:传统的方法中,计算待消歧实体上下文和目标实体语义相似度的方法(点乘,余弦相似度,KL距离等)可扩展性差,没有考虑各个概念间的内在联系;在协同过滤的方法中,计算待消歧实体上下文和目标实体语义相似度也是基础工作。
    • 方法:提出利用深度学习的方法自动联合学习实体和文档的表示,进而完成实体链接任务。
  • 跨语言实体链接(Zhang IJCAI 2013)

    • 动机:给定一种语言的实体指称项和其所在的上下文,将其链接到另外一种语言的知识库中;传统方法要先翻译成目标语言,可能产生错误传递,需要大量的句子级平行的双语训练语料。
    • 方法:利用双语隐含主题模型将实体指称项与候选实体映射到同一个主题空间中
      • 每一个隐含主题有两种不同的分布,分别对应两种不同语言
      • 处于同一个主题分布下的两种不同语言的词的分布具有一些共性。
  • 结构化数据中的实体链接(Shen SIGKDD 2012)

    • 动机:没有上下文;任务与传统的实体链接不同


      在这里插入图片描述
    • 方法:主要利用实体的流行度和实体共现类型去消歧
  • 社交数据中的实体链接(Shen SIGKDD 2013)

    • 动机:社交媒体是一种重要的信息来源;社交媒体的上下文较短,语言表述不规范


      在这里插入图片描述
    • 方法:利用tweet的用户信息和tweet的交互信息
  • 小结

    • 目前实体链接方法主要是如何更有效挖掘实体指称项信息,如何更准确地计算实体指称项和实体概念之间的相似度
    • 由单一实体链接向协同实体链接发展
    • 难点:未登录实体的处理。

你可能感兴趣的:(知识图谱学习笔记(六)——实体消歧)