词向量可视化,Embedding projector实现——基于维基中文语料库

本文词向量训练过程参考如下博客:
https://blog.csdn.net/svenhuayuncheng/article/details/78751311

按照该文的步骤得到一个wiki.zh.text.vector文件,用txt打开,可见如下数据:
词向量可视化,Embedding projector实现——基于维基中文语料库_第1张图片
其中478328是词的个数,100是词向量的维度(在训练的时候自己设定),每一个词后的100个数是该词的词向量。下面将其进行可视化,利用的工具是Embedding projector,网址如下:
https://projector.tensorflow.org/

词向量可视化,Embedding projector实现——基于维基中文语料库_第2张图片
左边红框是传数据的地方,第一步是传入向量数据,第二步是传入列标签,也就是词,注意这里传入的数据格式必须是tsv(可以去微软商店下载一个tsv编辑器,32块)。转换数据格式的步骤如下:

首先,将用记事本打开后的词向量复制到excel,用空格进行分列。将第一列词复制到一个新的excel文件,将词向量保存为文本文件(制表符分隔)(*.txt),然后将后缀改为tsv。

其次,将第一列词复制到一个新建的txt文件,保存的时候编码格式选择utf-8格式。然后将其后缀改为tsv。

最后,将得到的两个tsv文件传入Embedding projector即可。

得到的可视化结果如下:

词向量可视化,Embedding projector实现——基于维基中文语料库_第3张图片

你可能感兴趣的:(词向量可视化)