训练Doc2Vec

训练Doc2Vec_第1张图片
将文本数据表示成list of list的形式:
训练Doc2Vec_第2张图片
对每一条文本进行分词操作,可能的话,去除停用词,加上自定义词等:
训练Doc2Vec_第3张图片
将分词后的文本转换为gensim所需要的形式:
训练Doc2Vec_第4张图片
训练Doc2Vec,其中参数dm=1表示DM模型,dm=0表示DBOW模型。(此处没有写,dm参数放在Doc2Vec()函数中)
训练Doc2Vec_第5张图片

你可能感兴趣的:(NLP,doc2vec)