词语相似度计算方法总结

词语相似度方法

        本文是作者参看相关资料的简单总结,具体内容的链接可以参看下文的参考链接。        

        词语相似度计算在很多领域中都有广泛的应用,如信息检索、信息抽取、文本分类、机器翻译等方面。目前常用的词语相似度计算方法有两种:基于世界知识或某种分类体系的方法和基于统计的上下文向量空间模型方法。

(1)基于词典或某种分类体系计算词语相似度

        常用的词典有hownet、wordnet和同义词词林,这三种词典的构造方法互不相同,详细介绍参看参考链接和文献。

(2)基于上下文向量空间模型的方法

        基于上下文向量空间模型最为著名的莫属于google的Word2vec词语向量化工具,关于word2vec的原理介绍参看链接和文献。word2vec的链接博客作者写的很好,有兴趣的可以自已的看一下。

       github上面的word2vec代码:https://github.com/jsksxs360/Word2Vec,作者给了详细的介绍,还有训练好的模型库,有兴趣的可以下载下来进行运行。

        知网语义词语相似度的资源:http://download.csdn.net/detail/wanluyshyboy/7364101,这个需要1个积分;

        基于同义词词林的词语相似度计算资源:https://github.com/kongbinghit/TongYiCiCiLin。

参考文献:

    1刘群,李素建.基于《 知网》 的词汇语义相似度计算[J].中文计算语言学, 2002.

    2田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报(信息科学版), 2010, 28(6):602-608.

    3http://blog.csdn.net/u014285884/article/details/61198467

    4http://blog.csdn.net/itplus/article/details/37969979

    5http://blog.csdn.net/itplus/article/details/37998797


你可能感兴趣的:(词语相似度,nlp)