word2vec

1、下载word2vec,到官网,然后选择export github

2、编译:make

3、下载测试数据http://mattmahoney.net/dc/text8.zip,并解压

4、输入命令train起来:time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

5、测试距离功能:./distance vectors.bin

 

中文测试:下载数据msr_training.utf8,这个数据已经做好分词工作,如果想要直接使用自己的数据,就需要先做好分词工作

输入命令: time ./word2vec -train msr_training.utf8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

 

 

你可能感兴趣的:(word2vec)