WikiRelate! Computing Semantic Relatedness Using Wikipedia

上一篇论文中提到了用ESA(显式语义分析)的方法来计算语义相似度,但是通常都是计算句子和句子之间的相似度。要计算词之间的相似度,需要用到扩展技术,也就是将一个词扩展到一个上下文环境中。今天又看到一篇关于计算语义相关性的文章,同样是利用了wiki的资源。题目是《WikiRelate! Computing Semantic Relatedness Using Wikipedia》,翻译过来是《WikiRelate! 利用wiki来计算语义相关性》,作者是Strube。

 

摘要

语义相关性表示两个概念再一个分类中又多相关,可以利用一些关系,比如上下位关系以及has-part, is-make-of等等。目前很多工作都是基于Wordnet的,他是一个有着很规范的分类,但是他的问题就在于覆盖率。相反wiki就能够提供足够的概念集合,并且又良好的目录组织。本论文将利用wiki的概念以及分类结构来计算语义相似度。

 

方法

三个方法:

基于路径:在一个分类中,两个节点之间的边数。比如一个常用的方法就是用两个节点公共祖先的深度除以两个节点的深度之和。

基于信息内容:一个思想就是相关性就是两个概念的共享概念的扩展,所以两个概念的相关性可以用他们的公共祖先的信息内容的多少来确定。在wiki中,一个概念的信息内容用这个概念的下位概念的多少来表示。下位概念越多,那么他的信息内容就越多。

基于文本覆盖:第一步也是扩展,词扩展成句子,然后用句子的覆盖来计算相关读。扩展可以用gloss扩展,或者是全文扩展。

 

用wiki计算语义相关性

有了上面的,这一步就非常的简单了。首先是两个词i和j,需要在wiki中抽取出他们的文章,然后是这两个文章的类别。最后就可以利用上面的3个方法进行计算了。

 

最后的实验中有一种利用google相关文档数来做得方法,很有意思。两个词,到google去搜索,然后用他们一起的搜索结果数除以分别搜索的结果数减去一起的结果数。最后的实验对比是用wordnet和SRL(google方法)做得,发现相比来说都差不多,大数据集的时候wiki表现的好点,最好的还是将这三个方法结合起来。google方法在单独结果中表现最好,很有意思。

 

这个论文也是利用wiki来计算相关度的,但是方法还是传统的方法,只不过是利用了wiki来作为背景知识而已。结果显示,并没有多大提高。

你可能感兴趣的:(工作,Google,文档,扩展,Semantic)