Collective Entity Linking in Web Text: A Graph-Based Method 论文阅读

由于时间仓促,稍微总结一下这篇文章,

这篇文章是比较早做实体链接的,贡献主要在于两点:

1.提出Referent Graph

2.找到一种算法能够利用Referent Graph推断出实体链接关系

 

Referent Graph的构建分为三个步骤:

  1. Name Mention的识别

主要用到的是Mihalcea and Csomai的论文Wikify!: linking documents to encyclopedic knowledge中提到的Keyphraseness特征来进行识别。

Keyphraseness特征的计算如下:

Dkey为当前项被认为是keyword的文档数量,DW指的是所有出现当前项的文档数量,这些文档均来自Wikipedia。

  1. 候选Entity的选择

这一步主要是用来选择连接Referent Graph中的Mention与Entity,使用的是Milne与Witten在论文Learning to Link with Wikipedia中使用的连接方法,大致做法是用决策树判断是否连接。

  1. 节点的连接

这一步主要利用公式计算连边的权重,如果是Mention与Entity的连边,就使用:

来计算信息的传播率,如果是Entity与Entity的连边,则使用

来进行计算。这样就得到了Referent Graph,文章举例如下所示:

Collective Entity Linking in Web Text: A Graph-Based Method 论文阅读_第1张图片

 

接下来是利用Referent Graph用算法计算实体链接概率。

这里使用的是随机游走算法,这个算法认为一个状态有一定概率转变为另一个状态,我们通过Referent Graph可以得到一个转移矩阵T,矩阵的项就是一个节点传播到另一个相邻节点的信息传播率,对于一个初始节点,初始化一个r,r的每一项认为是该节点转移到其余所有节点的概率,通过随机地多次地传播,r最终趋于收敛,从而得到初始节点转移到各个节点的概率,与对应的CP相乘就可以得到实体链接的得分。

通过公式表达就是:

这里的Importance作为s用来初始化r^0

如果r^t+1与r^t相差不大,则r收敛。

而由于有的节点可能不能传出信息,因此将传播的公式定义为:

而收敛之后的公式为:

因此可以直接计算出r,进而计算出实体链接的分数,这样对于一个Mention就完成了实体链接。

由于是统计的方法,没有迭代,训练与测试,对于每个Mention都要算一次分数,对于每个Document都需要构建一次图。

欢迎大家指正,非常感谢。

你可能感兴趣的:(实体链接,Entity,Linking,NLP)