[NLP] Doc2vec原理解析及代码实践

Doc2vec段落向量的训练方法,与训练词向量类似,段落向量的训练分为训练数据预处理和段落向量训练两个步骤。

  1. 训练数据预处理:对段落进行分词处理(中文分词);
  2. 段落向量训练:TaggedDocument()

这里对于文档一般有两种策略:

  1. 直接对doc整体进行ID标记,一个sentence中包含岗位描述的所有单词;
  2. 来进行句子划分,一个sentence中仅包含的岗位描述中的一句的单词,检索时以单个句子来进行检索;

这里以第一种方式为例来介绍:
首先是去停用词处理以及分词,这里的分词文件可以自己在网上找一下,有很多

# 创建停用词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r').readlines()]
    return stopwords

# 对句子进行分词
def seg_sentence(sentence, stopwords):
    sentence_seged = jieba.cut(sentence.strip())
    outstr = ''
    for word in sentence_seged:
        if word not in stopwords:
            if word != '\t':
                outstr += word
                outstr += " "
    return outstr

参考地址:PYTHON3.6对中文文本分词、去停用词以及词频统计

分词完以后,数据形式变为:

构建doc2vec模型进行训练

from gensim.models import Doc2Vec

# 根据TaggedDocumnet生成训练语料
documents = [TaggedDocument(doc, [i]) for i, doc in enumerate(jd_df['doc_word'])]

model = Doc2Vec(documents,dm = 1, alpha=0.1, size= 20, min_alpha=0.025)
model.train(documents, total_examples=model.corpus_count, epochs=20)
model.save('model/d2vmodel')

应用doc2vec模型

# 模型加载
model_dm = Doc2Vec.load("model/d2vmodel20210422")
# 模型预测
test_text = ['独立','工程','预算','编制']
inferred_vector_dm = model_dm.infer_vector(test_text)
sims = model_dm.docvecs.most_similar([inferred_vector_dm], topn=10)

向量效果验证

print(test_text)
for raw_index, sim in sims:
    sentence = documents[raw_index]
    print(sentence, sim, len(sentence[0]))
效果验证

其实doc2vec的原理比较好理解,相当于将doc id或者说是sentence id当做一个单词来和该doc或者sentence中单词一起训练来学习它们的极大似然,以此来学习到该sentence id对应的sentence中包含的word的关系。

可以参考下面两张w2v和d2v的结构图来理解;

word2vec

doc2vec

参考地址:
[1] 基于DOC2VEC的段落向量训练及文本相似度计算
[2] Doc2vec原理解析及代码实践

你可能感兴趣的:([NLP] Doc2vec原理解析及代码实践)