gensim库的一些使用

1、gensim.models.word2vec
1)训练出模型
2)两词的相似度
3)某个词的相关词
4)好-坏,美-丑,找出某个词的对应词
5)从几个词中寻找不合群的词
6)导出词向量
模型的训练,依据分词后的预料文本

2、gensim.corpora.Dictionar
1)gensim.corpora.Dictionar 生成词典
2)doc2bow,词袋模型,句中每个词的(ID,词频)
3)生成句中每个词的(ID,tf-idf)。根据每个文档的tfidf,计算新文档与语料库中文档的相似度
4)潜在语义索引(LSI)。将语料库中文档划分出几个主题,生成文档与主题的相关程度。
5)利用LDA做主题分类的情况。将语料库中文档划分出几个主题,生成文档与主题的相关程度。

你可能感兴趣的:(机器学习算法)