中文Wiki语料获取

1. 数据下载#

wiki中文数据的下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
需对其进行繁简转换,中文分词,去除非utf-8字符等处理。

2. 文本预处理#

  • 执行:python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text 将这个XML压缩文件转换为txt文件。
  • 执行:opencc -i wiki.zh.text -o wiki.zh.text.jian -c zht2zhs.ini, 将繁体字转换为简体字。
  • 调用LTP进行分词
  • 执行:iconv -c -t UTF-8 < wiki.zh.text.jian.seg > wiki.zh.text.jian.seg.utf-8,将非utf-8格式字符转换为utf-8格式
  • 调用word2vec:python train_word2vec_model.py wiki.zh.text.jian.seg.utf-8 wiki.zh.text.model wiki.zh.text.vector

更多请参考《维基百科简体中文语料的获取》中的方法

相关文章#

斯坦福大学深度学习与自然语言处理第三讲:高级的词向量表示
斯坦福大学深度学习与自然语言处理第二讲:词向量
如何计算两个文档的相似度(二)
微软:Web N-gram Services
Beautiful Data-统计语言模型的应用三:分词7
如何计算两个文档的相似度(三)
用MeCab打造一套实用的中文分词系统(二)
Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”
Beautiful Data-统计语言模型的应用三:分词3
MIT自然语言处理第三讲:概率语言模型(第三部分)

你可能感兴趣的:(中文Wiki语料获取)