gensim中doc2vec调参

在文本分类中,需要把文本转换成向量。官方文档

https://radimrehurek.com/gensim/models/doc2vec.html

doc2vec算法是基于word2vec算法。

model = Doc2Vec(documents, size=100, window=8, min_count=5, workers=4)

documents是训练文档,训练文档必须是一行一个文本,并且进行过分词。

file = open(u'/home/ubuntu/file/数据平衡无分类', encoding='utf-8')
documents = gensim.models.doc2vec.TaggedLineDocument(file)

参数有三个size,window,workers.
size表示生成的向量的维度,一般为100维。
window表示训练的窗口的大小也就是训练数据周围读取了几个数据。
min_count是参与训练的词语的最小词频。

for i in range(20,100):
    for j in range(10,100):
     print('参数值:'+str(i)+":"+str(j))
     fileresult.write('参数值:'+str(i)+":"+str(j)+'\n')
     model = gensim.models.Doc2Vec(documents, size=i,  window=9, min_count=j, workers=8)

你可能感兴趣的:(Python,算法)