python的一堆工具包
https://www.lfd.uci.edu/~gohlke/pythonlibs/
------------------------------------------------------------------------
貌似遇见了自然语言处理的行家
我们参考以下的链接
https://www.jianshu.com/u/c5df9e229a67
https://www.jianshu.com/p/05800a28c5e4
----------------------------------------------------------------------------
1.需要下载维基百科的中文语料 1.2个G 下载很慢 下载链接如下 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
2.下载完 需要用process_wiki.py脚本来解析xml文件
3.将这两个文件(下载的语料和process_wiki.py)放在同一个目录下,
执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text:执行结果类似(当时没有截图,借用下):
4.解析完毕后需要(1)繁简转化(2)统一为UTF-8编码(3)分词
5.然后开始训练需要文件:train_word2vec_model.py
执行:python train_word2vec_model.py wiki.zh.text wiki.zh.text.model wiki.zh.text.vector
----------------------------------------------维基语料下载太慢 直接利用https://blog.csdn.net/thriving_fcl/article/details/51406780 下载了链接中的原始语料 和训练语料
语料
原始语料 http://pan.baidu.com/s/1nviuFc1
训练语料 http://pan.baidu.com/s/1kVEmNTd
首先:
我们需要安装一些依赖库,有numpy、scipy以及gensim,安装gensim依赖于scipy,安装scipy依赖于numpy。
1.安装pip ,如果安装的是python3.4版本以上的,就不需要重新安装。自带有pip
2.安装numpy 参见程序:https://blog.csdn.net/Katrina_ALi/article/details/64922107
wheel已经安装完毕 https://www.cnblogs.com/cysblog/p/7675713.html
安装numpy的时候一直说版本不对应,出现以下错误
查询资料后才知道下载页面numpy的参数表示:
cp3.6是python3.6版本,win_amd64是window系统64位。需要注意numpy是要下载有mkl的版本的,因为scipy安装需要在numpy+mkl才能成功。 安装。首先因为scipy安装需要在numpy+mkl才能成功。所以需要先安装numpy+mkl
a. 前面的表示numpy的版本号,一般选择最新版本就好
b. 中间的cp35,表示的就是Python 3.5.*
c. 最后选择和自己电脑位数匹配的版本
3. 将下载后的numpy安装包放到任意文件夹
4. 打开控制台,进入到保存numpy安装包的文件夹
5. 输入安装指令
经测试,终于安装成功。
安装numpy之后安装scipy,仍然使用命令pip install scipy安装完scipy以后,接下来使用命令 pip install gensim 即可。
带所有的环境安装成功以后。开始下载语料太慢,我直接用了上面说的训练语料 别人已经处理好的 开始训练词向量
训练文件执行到上图所示的部分,是否训练成功????
执行到此 表示训练成功。
-----------------------待分析
简书上也有详细步骤https://www.jianshu.com/p/05800a28c5e4
https://blog.csdn.net/grafx/article/details/78575850
https://blog.csdn.net/thriving_fcl/article/details/51406780
https://www.jianshu.com/p/98d84854f7a3
https://www.cnblogs.com/helloever/p/5280891.html
https://www.jianshu.com/p/05800a28c5e4