中文维基百科语料的Word2vec训练-gensim

语料获取

英文维基百科

中文维基百科

预处理数据

  1. 将xml的压缩文件处理成text格式
python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text
  1. 将wiki.zh.text中的繁体字转化为简体字,利用开源项目opencc
opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json
  1. 分词,利用jieba分词
python -m jieba wiki.zh.jian.text > wiki.zh.jian.seg.text -d ' '
  1. 训练word2vec模型
python train_word2vec_gensim.py wiki.zh.jian.seg.text zhwiki.model zhwiki.vector
  1. 用gensim加载和简单测试一下得到的vector的效果
>>> import gensim
>>> model = gensim.models.Word2Vec.load_word2vec_format("zhwiki.vector", binary=False)
#model = gensim.models.Word2Vec.load("zhwiki.model")
>>> result = model.most_similar(u"足球")
>>> for e in result:
...     print e[0], e[1]
...
足球运动 0.542515218258
国际足球 0.529274106026
足球队 0.515214025974
篮球 0.507430315018
足球联赛 0.501194238663
国家足球队 0.490789890289
体育 0.486750543118
足球比赛 0.482675015926
男子篮球 0.478844285011
世界足球 0.475564420223
>>>

你可能感兴趣的:(中文维基百科语料的Word2vec训练-gensim)