词语相似度分析(《知网》、同义词词林、word2vec)

词语相似度分析(《知网》、同义词词林、word2vec)

本篇对刚刚接触词语相似度分析的小白提供一个方向

词义相似度计算方法分两种,一种是基于世界知识或某种分类体系的方法,例如基于《知网》、同义词词林的。;另一种是基于统计的上下文向量空间模型方法,例如word2vec此类工具。
1.基于世界知识或某种分类体系的方法
(1)基于《知网》。推荐《基于《知网》的词汇语义相似度计算》 与 《基于语义理解的文本相似度算法》两篇论文。后者是在前者的基础上进行补充和改进,给出了词语与词语、句子与句子、段落于段落的相似度分析方法。主要根据组成不同概念的义原在义原层次结构树中所处的位置深度来对其相似度进行计算。
(2)基于同义词词林。推荐《基于同义词词林的词语相似度计算方法》与上述所使用的知识库不同。同义词词林不仅考虑词语的词义相似性还考虑来了词语的相关程度,例如“学习”与“拜师”词义相似度较低,但是却有很强的相关性。
2.基于统计的上下文向量空间模型方法
这就提到了“词向量”这一关键词。词向量用通俗的话解释就是,让某一个单独的词呈现在一个与所提供文本有关的空间中。其坐标不仅代表其位置,还能够通过与其他词的远近距离体现出与其他词语的相似程度。而这个空间与改词所在的语料有关,这个词向量也与该词所处的上下文有关。
word2vec是应用此方法进行词义相似度分析的工具。可以根据某词上下文分析出该词的可能值,也可以根据该词分析得出可能的上下文。简单的来说就是,在对“我爱北京”的分析后,对于“我喜欢北京”其可以认为“喜欢”与“爱”同义词。但是与上述方法1不同,这些分析都与所提供的语料有关,不同的语料得出的结果也不同。而方法一中,只要基于相同的知识库,无论给出什么文本,其对某两词的分析结果都应该是一致的。
可以根据自己的需要选择适合的工具进行相似度的分析计算

你可能感兴趣的:(自然语言处理)