word2vec python实现_用python实现gensim的word2vec模型计算句子相似度

既然您使用的是gensim,那么您可能应该使用它的doc2vec实现。doc2vec是word2vec在短语、句子和文档级别的扩展。这是一个非常简单的扩展,在这里描述

Gensim很好,因为它直观、快速、灵活。最棒的是,你可以从官方的word2vec页面抓取预训练的单词嵌入,gensim的Doc2Vec模型的syn0层被暴露出来,这样你就可以用这些高质量的向量播种单词嵌入!

我认为gensim绝对是在向量空间中嵌入一个句子的最简单的工具(到目前为止,对我来说,是最好的工具)。

除了上述Le&Mikolov的论文中提出的句子到向量技术之外,还有其他的句子到向量技术。斯坦福大学的Socher和Manning无疑是这一领域最著名的两位研究人员。他们的工作基于句子的构词-语义原则,来自:1. semantics of the words

2. rules for how these words interact and combine into phrases

他们已经提出了一些这样的模型(变得越来越复杂)来说明如何使用复合性来构建句子级的表示。

他的论文都可以在socher.org上找到。其中一些型号是可用的,但我还是推荐gensim的doc2vec。一方面,2011款URAE并不是特别强大。此外,它还预先训练了适合解释news-y数据的权重。他提供的代码不允许您重新训练网络。你也不能在不同的词向量中交换,所以你被2011年Turian的pre-word2vec嵌入所困扰。这些向量肯定不在word2vec或glow的级别上

还没有与树LSTM合作,但它似乎非常有希望!

是的,用gensim的doc2vec。但其他方法确实存在!

你可能感兴趣的:(word2vec,python实现)