使用GloVe训练中文语料

0.安装gcc

在运行前务必确保ubuntu下有gcc

gcc --version
# 如果没有则安装:
yum install gcc

1.准备语料

准备好语料并进行分词,保存glove_corpus文件

使用GloVe训练中文语料_第1张图片

2.下载源码

https://github.com/stanfordnlp/GloVe

使用GloVe训练中文语料_第2张图片

解压文件夹,将语料glove_corpus放入到GloVe的主文件夹下。

3.修改bash

打开demo.sh,修改相应的内容

因为demo默认是下载网上的语料来训练的,因此如果要训练自己的语料,需要注释掉:

使用GloVe训练中文语料_第3张图片

修改参数设置,将CORPUS设置成语料的名字

另,根据网上的资料显示vector_size=300和window_size=8时效果最佳

注:由于我修改是用的写字板修改,后续在linux shell 报错 bash:$'\r': command not found:

使用GloVe训练中文语料_第4张图片

解决方案:

# step1:安装 dos2unix
yum install dos2unix -y
# step2:
dos2unix demo.sh

4.执行bash文件

进入到主文件夹下:

make

使用GloVe训练中文语料_第5张图片

bash demo.sh

使用GloVe训练中文语料_第6张图片

使用GloVe训练中文语料_第7张图片

LINK

训练GloVe中文词向量

Ubuntu下GloVe中文词向量模型训练

 

你可能感兴趣的:(算法原理)