word2vec代码实战

1 代码及数据集下载

代码链接:https://github.com/ttb1534/word2vec-include-datapreprocess
数据集链接:https://pan.baidu.com/s/1RHhHp8Y5_Y0AjYQ5Oa0CTA(密码1534)

word2vec代码实战_第1张图片

 

下载的代码及数据如下:

word2vec代码实战_第2张图片

datasave/cutdata0.txt(cutdata_prepare.txt,作者事先处理好的):预处理后的数据
datasave/word_embedding.txt(word_embedding_pretrained.txt,作者事先训练好的):训练好的词嵌入

dataset/news.txt :为所用原始数据集,取自真实的新闻报道
dataset/cn_stopwords.txt :为需要去除的停顿词

dataprocess.py :数据预处理,得到cutdata0.txt
train.py :训练,得到word_embedding.txt
test.py :测试

2 数据预处理

       将原始文本数据进行分词,去除停顿词(停顿词是语言中经常出现的单词,不包含太多有用信息,甚至在后续处理中对数据产生干扰)。执行dataprocess.py,得到如下预处理数据:

word2vec代码实战_第3张图片

3 训练

       将数据进行训练,执行train.py,我的显卡是GTX1650S,大约训练了5个多小时,结果如下,词嵌入维度是100的。

word2vec代码实战_第4张图片

4 测试

       上述训练得到的词嵌入编码可以用到需要词嵌入的场合,例如文本匹配。作者给出的测试,即输入一个中文词语,输出和给定词在词嵌入空间最为接近的一些词,执行test.py。

word2vec代码实战_第5张图片

你可能感兴趣的:(word2vec,自然语言处理,nlp)