词向量注记

搞自然语言处理,肯定还是要涉及词向量的,因此准备写下这篇博客,把一些零散的东西做做记录。

谷歌 word2vec 在 mac 下安装的问题

word2vec 项目的主页在:https://code.google.com/archive/p/word2vec/ ,不过目前的下载地址已经挂了,源代码我也是下载别人上传的,比如我下载的是
word2vec-2014-10-29.tar ,解压 (tar -xzvf word2vec-2014-10-29.tar )之后会生成 w2v 文件夹,这个 csdn 上已经有很多人上传了。我先是在 linux 上安装了一下,也跑通了 demo,都没有问题。可是在我的 macbook 上无法 make 成功,有一些 c 的命令还是不太一样。于是我搜到了这个:https://github.com/William-Yeh/word2vec-mac ,这个在 mac 上是可以用的。make 也成功了,只不过在跑 demo 的时候,比如运行

./demo-word.sh

的时候,也出了点问题。其实这个脚本是先下载了文本,然后训练了模型,我的 macbook 之前的设置好像有所改动,用 curl 下载不下来,反倒是用本来的 wget 命令可以下载,这样就可以成功了。以上文件夹的路径均在 /Users/lxy444/Documents/NLP下。

值得一提的是,Github 上有相应的 python 版本,地址是:https://github.com/danielfrg/word2vec 。我的 Windows 台式机上安装的是 Anaconda,所以直接 pip install word2vec 就行了。我的 mac 上没有安装 Anaconda,直接用 pip 安装时报错了,索性采取了暴力的办法,就是把整个文件夹下载了下来,用 python setup.py install 安装的。对应的例子可参考这个:https://www.cnblogs.com/Newsteinwell/p/6034747.html 。

不过这个包与 gensim 包还略有不同。关于 gensim 包的例子,可参见: https://blog.csdn.net/MebiuW/article/details/52303622 。

你可能感兴趣的:(示例教程)