Gensim 4.0.0加载词向量时“KeyedVectors.load_word2vec_format”,报错。

import gensim
word2vec_model = KeyedVectors.load_word2vec_format('Path:/…/ChineseEmbeddingMin.txt', binary=False, unicode_errors='ignore')

这里,“binary=False” 是指text 形式;binary=True 是指 binary 形式。

报错1
“EOFError: unexpected end of input; is count incorrect or file otherwise damaged?”

原因
训练好的词向量文件(不是词向量模型),第一行有两个数字“500 100”,前者指“此文件中共有多少个词”(这个数和实际词的数对不上才报了上边的错),后者指“每个词的维度”。

解决方法
ctrl+End找到文件最底部,查看文件行数(此处为501),行数减1为实际词数(500)。核对下第一行第一个数和实际的词数是否一致?此处“500 100”第一个数和(501-1)一致,所以报错可以解决。

你可能感兴趣的:(报错解决方案,word2vec,人工智能,nlp,自然语言处理)