知识图谱赵军学习笔记(五)--实体消歧

实体消歧

任务定义

通过六元组来定义:
M=N,E,D,O,K,&
N是待消歧的实体名集合,如李娜,迈克尔乔丹等
E是待消歧实体名的目标列表,包括了可能指向的实体,如李娜(跳水运动员)
D是一个包含了待消歧实体名的文档集,如包含迈克尔的网页集合
O=是D中的实体指称项集合。一个实体的指称项是在具体上下文中出现的待消歧实体名。
K是命名实体消歧任务所使用的背景知识。关于目标实体的描述。
&:OxK->E

任务分类

目标列表是否给定,分为基于聚类的消歧系统和基于实体链接的消歧系统

  • 基于聚类的实体消歧系统
    由于目标实体列表没有给定,基于聚类的命名实体消歧系统以聚类方式对实体指称项进行消歧。将指向同一个目标的实体的指称项聚到同一类别下。
  • 基于实体链接的实体消歧系统
    与目标实体列表中的对应实体进行链接实现消歧。

相关评测

  1. WePs
    评测指标
  • 纯净度
    只要用于评测聚类结果中每个类别的所有指称项是否都指向同一个实体
  • 倒纯净度
    评测聚类结果中的每个类别是否召回了足够多的该类别下的指称项
  • F值
  1. TAC KBP
    链接到目标实体上
    所有链接的平均准确率

基于聚类的实体消歧方法

步骤:

  1. 对每个实体指称项o,抽取其特征(上下文的词,实体,概念)组成特征向量
  2. 计算指称之间的相似度
  3. 采用某种聚类方法对指称项聚类
    关键问题是计算相似度,分为一下三类:

基于表层特征的实体指称项相似度计算

bag of words的延伸,计算termxiangl ,每个权重采用经典的tf-idf来表示。没有考虑到上下文的内在关联。

基于扩展特征的实体指称项相似度计算

扩展特征,上下文信息,类别信息,一般网页的实体名等
层次化分类体系
结构化关联语义

基于社会化网络的实体指称项相似度计算

通过传递性发现隐藏的关系,缺点在于只用了上下文的实体信息,没有用到实体指称项的其他上下文信息。

基于实体链接的实体消歧方法

一个命名实体的文本指称项链接到知识库中相应实体的过程。
输入有两部分:

  • 目标实体知识库
    实体表,实体的文本描述,实体的结构化信息(属性,属性值对)、实体的辅助性信息,额外的结构化语义信息,如实体的关联
  • 待消歧实体指称项及其上下文信息
    链接的步骤:
  • 链接候选过滤
    过滤掉不可能指向的实体
  • 实体链接
    重点

链接候选过滤方法

基于实体指称项词典,获取它所指向的候选实体
模糊匹配的方法

实体链接方法

通过打分的方法对指称项最高的实体作为目标实体

  • 向量空间模型
    基于实体指称项上下文与目标实体上下文中特征的共现信息来确定。
    向量表示

    • 抽取有效的特征表示

    • 有效地计算向量之间的相似度

  • 主题一致性模型
    实体指称项的候选实体概念与指称项上下文中的其他实体概念的一致性程度

    • 上下文实体的重要程度
      传统方法使用实体与文本内其他实体的语义关联的平均值作为重要性程度的打分。
    • 如何计算一致性
      加权语义关联平均为其一致性打分
  • 协同实体链接
    上面只处理单个实体指称项的链接问题,忽略了单篇文档内所有实体指称项的目标实体之间的关系。对文档内所有实体指称项进行协同链接有助于提升实体链接的性能。

  • 基于神经网络的实体消歧方法

面向结构化文本的实体消歧方法

利用实体的类别信息,实体的流行度和列表中的其他信息进行消歧。

你可能感兴趣的:(NLP)