使用zhwiki数据训练word2vec

当前项目中用到的词向量都是网上别人已经训练好的

这个项目是常用的一些语料资源集合  https://github.com/ares5221/ChineseNLPCorpus

这个项目是当前常用的词向量的集合  https://github.com/Embedding/Chinese-Word-Vectors

但是网上下载的词向量都是直接用的,如果想要继续训练的话,需要有保存的model,这个一般都没有,所有我们那一些语料自己训练,训练好的model再用我们自己的语料接着训练

这里先介绍如何训练

1 我们这里用wilizh数据来训练

到 https://dumps.wikimedia.org/zhwiki/的目录下

选择latest最新

使用zhwiki数据训练word2vec_第1张图片
使用zhwiki数据训练word2vec_第2张图片

由于我们要训练词向量,所以要找正文相关 也就是 pages-articals xml bz2的文件

直接点击下载 一般是2g以内大小

2,数据处理 将wiki的xml文件处理成正常的txt文件 15min左右

需要用特殊的脚本处理而不能直接压缩(与维基百科保存格式有关)

github中有更为全面的WikiExtractor

使用zhwiki数据训练word2vec_第3张图片

3.使用opencc将繁体txt转换为简体txt

下载地址:

https://bintray.com/package/files/byvoid/opencc/OpenCC

下载1.04win32,无需安装,解压即可使用,解压后其中文件

网上说把bin路径添加到环境变量,我操作后失败,cmd中无法识别opencc命令

使用zhwiki数据训练word2vec_第4张图片

实际的操作,亲测可行

将我们前面生成即可的wiki.zh.text拖动至opencc-1.0.4-win32文件夹中,

打开cmd并在当前文件夹中输入如下指令:

E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\bin> .\opencc -i wiki.zh.text -o test.txt -c E:\opencc\opencc-1.0.4-win32\opencc-1.0.4\share\opencc\t2s.json

这里先切换到bin路径下 -c后面的参数设置t2s.json文件写绝对路径

差不多五分钟左右,然后可以看到目录中生成了test.text文件

打开后可以查看其中内容,可以看到已经成功全部转化为了简体字

但是做词向量训练之前仍缺少最后一步,就是分词

4,分词

你可能感兴趣的:(使用zhwiki数据训练word2vec)