实体消岐(2.1) - 论文笔记

Fan X, Wang J, Pu X, et al. On Graph-Based Name Disambiguation[J]. Journal of Data & Information Quality, 2011, 2(2):1-23.

Reference Disambiguation

几乎所有的解决方法都考虑文档的多种属性(title, abstract, author's email, affiliation, coauthor, topic of document, edit distance, revelance of keywords)-->定义feature-based similarity --> 用来判定任意一对文章是同一个作者书写的概率。

  • Kalashnikov and Mehrotra [2006]
  • On et al. [2006]
  • On and Lee [2007]
  • Bekkerman and McCallum [2005]
  • Lee et al. [2005]
  • Han et al. [2004, 2005].

此外,有很多 图模型 方法被用来计算两个对象之间的关系相似度。

  • Minkov et al. [2006] 带标签的有向图 -> 基于lazy graph walk生成关系相似度,实现邮件中人名的消岐。
  • Chen et al 2007, 自适应的图模型来实现消岐,graph中节点的相似度是 节点的传统feature-based similarity节点的connection length 的 组合。

本文 仅考虑connection strength, 计算形式上与Chen2007也不同。

  • Kalashnikov and Mehrotra [2006] 通过 legal path 来定义connection strength,刻画entities之间的连接程度。

  • On et al [2006] 利用Quasi-Clique来探究上下文信息,而不单单考虑节点的相似度。【猜想:这里是指节点与所在团簇的相似度吗?】

Name Disambiguation

当数据量大,手动采集文档的信息(emails, affiliations,...)非常耗时,这些信息有时候在文档中是 缺失的 、或者 包含名称变体 。 【其实这句话,引出本文为什么仅仅用coauthors, 而不用这些信息】

前人的做法:(Two-stage)
①构建相似度度量标准
②选择聚类(分割)方法将文档集合 --> clusters

如,Han et al 2004 提出有监督学习(naive bayes, SVM), 为每一个作者训练一个分类器,随后这些分类器s 用来判定新文献的作者是哪一个实体。缺点:手动标记训练数据很累,此外,按这种策略,“entity的数目==分类器的 数量” 是不切实际的。

Zhang et al 2007, 用6种约束,为半监督name disambiguation 设计了一种概率模型。该模型基于HMM。缺点很多。

Yin et al 2007 结合了两个互补的度量,set resemblance of neighbor tuples and random walk probability. 【看来有必要看一下这个

本文的思路: (5-stage, section4.1-4.5分别介绍)

  • graphical view of the input database
    • Coauthor graph to represent the relations among papers.
  • valid path selection
    • 前提假设:在一段时间内,一个作者的研究方向、机构、coauthors比较稳定。
  • similarity metric among nodes
    • 借鉴并联电路计算总电阻的套路,设计了节点相似度计算函数
  • clustering framework
    • AP聚类算法
  • user feedback

4.1 graphical view of the input database

实体消岐(2.1) - 论文笔记_第1张图片
Coauthorship graph to represent relations among papers

如何能知道r1,r2中的Jiong Yang是同一个人呢?我们不知道啊!!那么为什么能用同一个节点表示!!!完全搞不清作者为什么这么做!!!!

【仔细想想的话认为Jiong Yang是同一个人是有道理的:毕竟不要忘了一个前提,两篇文档中的Jiong Yang有着共同作者Wei Wang,我们有理由相信两个Jiong Yang极有可能是同一个人,这种连接构图形式使得两个WeiWang距离很近】
如果有r7(r7的作者是 Wei Wang 和 Zhang San), 那么上图将出现一个新的孤立小簇,[WeiWang---ZhangSan]. 此时我们该WeiWang从结构上来说与其他6个WeiWang的距离就比较大,这也符合我们从coauthor的角度的直觉判断。因此,总的来说,这种构图还是比较合理的。

4.2 valid path selection

如何计算任意一对WeiWang的similarity呢?
最短路径很耗时,宽度优先搜索耗时 O(|V|+|E|),需要再想办法!
valid path selection的基本思路从large graph筛选一些对计算最短路径有意义的边,而忽略掉一些冗余的边。

4.3 Similarity Computation

The similarity denotes the confidence of two nodes corresponding to the same author

思路很棒,借鉴了并联电路的总电阻 实现了以下considerations:
①考虑路径的长度
②考虑路径的数量

其中sum(i,j)是节点i,j之间的有效路径数量,l_h是路径的长度。巧妙之处在于: ① Lh↓,使得 Sim ↑,② sum(i,j) ↑,使得 Sim ↑ 精妙的借鉴于:1/R = 1/R1+1/R2+1/R3+.... ①并联电路中支路电阻减小会使得整体的电阻减小。 ②支路的增加会使得电阻减小。

后面稍加改进为:
改进的初衷,以及f(x)的具体形式参见原文

4.4 Name Clsutering

  • AP聚类,对于n个WeiWang, 输入为nxn的相似度矩阵,输出是n个WeiWang的类别划分。

4.5 User Feedback

你可能感兴趣的:(实体消岐(2.1) - 论文笔记)