Glove模型训练自己的中文数据集词向量详细步骤

首先,下载Glove项目资源:

https://github.com/stanfordnlp/GloVe

Glove模型训练自己的中文数据集词向量详细步骤_第1张图片

 注意1:

后续训练命令仅在服务器命令行界面有效,在本机命令行、anaconda prompt命令行、开发环境如vscode等的终端命令行均无效

 将下载解压之后的glove文件夹通过xftp传到服务器上,存放于123文件夹中(自己随便命名的文件夹)

然后在xshell中进入相应文件夹主目录路径,如下所示,红色部分为输入命令,回车即可:

 (base) 123@ls-X10DAi:~$ cd /home/123/GloVe-master

注意2:

需要先打开demo.sh文件,对内容进行修改:

因为我们使用的是自己的训练集,所以注释掉默认下载语料的语句:

Glove模型训练自己的中文数据集词向量详细步骤_第2张图片

 同时将数据文件换成自己的数据:

Glove模型训练自己的中文数据集词向量详细步骤_第3张图片

 自己的数据集需要先进行分词,一行一条数据,中间以空格隔开,放置在Glove-master主目录下,示意如下:

Glove模型训练自己的中文数据集词向量详细步骤_第4张图片

 接上一个命令行步骤,之前已经输入路径命令,进入主目录之后,输入make命令进行编译:

(base) 123@ls-X10DAi:~/123/GloVe-master$ make

回车之后运行如下(开头和结束部分截图):

Glove模型训练自己的中文数据集词向量详细步骤_第5张图片

 Glove模型训练自己的中文数据集词向量详细步骤_第6张图片

 上述过程完成之后,继续输入命令bash demo.sh

(base) 123@ls-X10DAi:~/123/GloVe-master$ bash demo.sh

回车之后,结果如下(开头和结束部分截图):

Glove模型训练自己的中文数据集词向量详细步骤_第7张图片

 Glove模型训练自己的中文数据集词向量详细步骤_第8张图片

 最后生成了五个文件,两个txt文件,三个bin文件:

Glove模型训练自己的中文数据集词向量详细步骤_第9张图片

 至此,glove训练自己的中文词向量训练完成

生成文件说明:

vocab_count:  用于计算原文本的单词统计(生成vocab.txt,每一行为:单词 词频)
cooccur:
统计词与词的共现,类似word2vec的窗口内的任意两个词(生成cooccurrence.bin,二进制文件)
shuffle:
对于cooccur中的共现结果重新整理,即word2vec的窗口内的任意两个词(生成 cooccurrence.shuf.bin,二进制文件)
glove:
​​​​​​​glove算法的训练模型,会运用到之前生成的相关文件(vocab.txt和cooccurrence.shuf.bin),最终会输出vectors.txt和vectors.bin(前者直接可以打开,后者还是二进制文件)

你可能感兴趣的:(Python语法处理文本数据,python,自然语言处理,tensorflow,windows,人工智能)