词语相似度处理过程(2)

整个处理过程遵照:
http://textminingonline.com/training-a-chinese-wikipedia-word2vec-model-by-gensim-and-jieba?utm_source=tuicool&utm_medium=referral
教程的方式,中间穿插着使用了其他的方法,下面开始一个个讲解一下具体做实验的过程:
1.首先下载维基百科的中文语料库,这是一个压缩文件,没有办法直接使用,需要做进一步的处理。语料库文件: zhwiki-latest-pages-articles.xml.bz2
2.对压缩文件的处理,根据帖子中的命令行,直接在同一级目录下运行process_wiki.py即可。
输入:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
这个过程耗费时间比较久,大概需要3个半小时左右。
生成了wiki.zh.text
3.生成的文本当中存在繁体字,所以我们考虑使用简繁体转换的方式,将繁体字转换为简体字,这里就用到了新的转换工具,opencc的包。具体的使用方式及中间的波折写在opencc的安装笔记当中。生成转换之后的文本:wiki.zh.jian.text
4.对英文做处理,在网上找到了一个合适的方法,特别方便,直接运行(5分钟)
remove_words.py生成了wiki_cn_jian_remomved.txt
5.对词语进行切割,使用jieba分词包(半个小时)
运行 separate_words.py得到文件wiki_cn_jian_removed_seg.txt文件
6.训练word2vec模型,运行train_word2vec_model.py文件(25分钟)
具体命令行:
python train_word2vec_model.py wiki_cn_jian_removed_seg.txt wiki.zh.text.model wiki.zh.text.vector
训练结束,开始测试:


至此word2vec的实验全部完成,这里的word2vec里面具体用到的是skip-gram模型。

你可能感兴趣的:(词语相似度处理过程(2))