python GENSIM训练word2vec流程及遇到问题详解

问题详解

1.word2vec - KeyError: “word X not in vocabulary”

 解决方案:阅读https://stackoverflow.com/questions/58666699/word2vec-keyerror-word-x-not-in-vocabulary提到的两种方法解决

可能存在的问题

  • 在训练时gensim.models.Word2Vec(data, size=, min_count=, window=)的参数min_count默认值为5,也即频率低于5的词都将被忽略不进行训练,故将其值改为1,仍然报错。
  • 上述data参数数值类型错误,查看了官方示例(https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#sphx-glr-auto-examples-tutorials-run-word2vec-py),类型应该为list,然而个人将经过预处理(文字提取,分词,去停用词等)的数据最终存储为一个文件result.txt,当再次打开时类型为str࿰

你可能感兴趣的:(自然语言处理,自然语言处理)