gensim中word2vec使用方法记录

使用 gensim 包中的 Word2Vec 训练词向量;

from gensim.models.word2vec import Word2Vec
model = Word2Vec(text, size, min_count, window, sg)


text: 预处理分词后的语料,通常为空格连接的字符串;
size: 词向量的维度,默认值是100;
min_count: 词向量的最小词频,过滤低频词,默认是5。
window: 滑动窗口大小,默认为5。
sg: word2vec 的两种训练模式。0代表CBOW,1代表Skip-Gram,默认为 0。

model.save(path):保存模型

model.load(paht):加载模型

找到相似度最高的词:model.most_similar('word', topn=10)

找到记歌词中最不相关的:model.doesbt_match(['word1', 'word2', 'word3', 'word4'])

使用新增语料做增量词向量训练:

对新增语料做相同的预处理,如命名为 text

model = Word2Vec.load(model_path)  # 加载旧模型
model.build_vocab(text, update=True)  # 更新词汇表
model.train(text, total_examples=model.corpus_count, epochs=model.iter)  

epoch: 语料库的迭代次数,default:5;total_examples: 句子数。

参考:

Word2Vec模型增量训练_Xiaozhu_a的博客-CSDN博客_word2vec增量训练

你可能感兴趣的:(nlp,word2vec)