知识图谱-实体消歧(语义消歧)

命名实体歧义:

  1. 命名实体指称多样性: 一个命名实体可以用多种方式表达.
  2. 命名实体指称歧义性: 一个指称可能表示不同的命名实体.

命名实体聚类消歧 命名实体链接消歧

命名实体聚类消歧是利用聚类算法来对实体进行消歧. 命名实体链接消歧则是借助外部知识库将待消歧命名实体指称链接到外部知识库中对应实体来进行消歧.

基于中文维基百科的命名实体消歧方法

计算文本特征向量与不同词义的维基特征向量的相似度(可由词间距离转换 余弦距离 欧式距离等)。

面向实体链接的多特征图模型实体消歧方法

以中文维基百科作为知识库支撑构造图模型,从实体指称表述项的上下文和候选实体在维基百科的内容两方面,不仅考虑维基百科的锚文本链接,而且充分利用维基百科的摘要、类别、消歧页面等结构信息,充分抽取多种语义特征,并计算语义相似度,将这些语义信息融合到图模型中进行随机游走,选取图中概率分布的top1作为最终的消歧结果。

结合实体链接与实体聚类的命名实体消歧

首先根据维基百科知识库的信息,使用实体链接的方法进行消歧,接着使用实体聚类的方法弥补知识库规模不足这一问题。
结合实体链接与实体聚类的 NED 算法包括 4个部分: 实体指称扩充、候选实体生成、候选实体排序及无指代实体聚类。
设实体指称为 M,其扩充词尾 Exp

  1. 实体指称扩充
    (1) 首字母缩写词扩充: 首字母缩写词指的是通过组合每个词的首位字母构成的新词或专有名词。
    对于一个首字母缩写词 M = m1m2…mn,其长度
    为 n 且 M 的对应背景文本为 D. 首先在 D 中查找
    “M ( Exp) ”标记,若存在相关标记,则 Exp 为 M 的
    扩充词; 若不存在这样的标记,则查找“( M) ”标记,
    在标记处向前查找最长的连续序列 Exp,Exp 不包
    括标点符号或者多于 2 个停用词.
    (2) 简称的扩充: 简称指的是由全称的部分词简化而来的词. 对于一个简称 M,首先在 M 对应的文本 D 中查找 M 所在的位置,并在该位置向前或向后提取出对应的单词作为 M 的扩充词 Exp,Exp 全为大写单词或不多于 2 个停用词.
  2. 候选实体生成
    候选实体生成的主要任务是为每个实体指称M,在知识库中生成可能的候选实体集合 SET( EM) .算法使用的知识库是维基百科知识库,在生成候选实体之前,首先需要对知识库进行处理,找到每个实体 E 的对应指称集合 SET( ME ) . 在维基百科知识库中,可提取的资源如下所述. 1) 页面标题: 每篇维基百科描述实体的指称形式. 在实体 E 对应的维基百科 XML 页面中,页面标题以 < title > ME < /title > 格式表示,即 ME是 E 的一个指称形式. 2) 重定向信息: 重定向页面指向另一个同义词实体页面. 重定向信息以 { { Redirect | ME } } 格式表
    示,即 ME是 E 的一个指称形式. 3) 锚文本: 内部超链接的描述文本,在维基百科中以 \[\[E | ME \]\]或 \[\[E( ME ) \]\]格式描述,即 ME是 E 的一个指称形式. 4) 消歧信息: 消歧页面以“( disambiguation) ”结尾,其标题为该页面描述的实体共同指称形式.
    算法根据上述几种资源找到实体 E 对应的所
    有指称形式,将其描述为一个指称集合 SET( ME ) ,若实体指称 M 跟集合中某一指称形式完全匹配,则该实体 E 为查询词 M 的一个候选实体. 由于知识库中资源有限,无法为所有的查询词生成对应的候选实体,将那些无法生成候选实体的实体指称定义为无指代实体,以 nil 表示,并将该实体指称加入无指代实体集合 SET( nil) 中
  3. 候选实体排序
    每个(M,EM )对提取多重特征,接着使用支持向量机排 序 ( Ranking-SVM,ranking support vector ma- chine) 方法来进行排序以选取最优实体. 每个(M, EM )对都被表示成一个特征向量的形式。
    表面特征
    指称完全匹配、扩充词完全匹配、指称部分匹配、指称缩写匹配、基于编辑距离的匹配、基于最长子序列的匹配
    出处特征 候选实体出处、标题完全匹配
    语义特征 命名实体类别匹配
    文本特征 上下文相似性
    位置特征 指称原词在候选实体文本中、指称扩充词在候选实体文本中、候选实体在指称文本中
    流行性特征 受欢迎度
  4. 无指代实体聚类
    具体使用的聚类消歧方法: ①对每个无指代实体指称,提取表上述的所有特征,将该实体指称表示为一个特征向量; ②根据提取的特征,使用 HAC算法对所有无指代实体指称进行聚类; 3) 将每类无指代命名实体指称标记为 NILxxx( xxx 为与已知序号不重复的任意序号) ,这样虽然无法给出每类实体指称的确切含义,但能从类别上进行区分,即 NIL001 与 NIL002 指代的是不同的实体.

你可能感兴趣的:(知识图谱,知识图谱)