(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库

利用Wikipedia中文语料训练词向量一共分为两个篇章,这篇文章属于第一部分,包括下载Wikipedia语料库,并将其从繁体转换为简体。

目录

  • 第一步 下载语料库
  • 第二步 将下载好的bz2文件转换为txt(text)文件
  • 第三步 繁体转换为简体

第一步 下载语料库

Wikipedia中文语料库链接: https://dumps.wikimedia.org/zhwiki/

打开网址后,就会看到如下的内容:
(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库_第1张图片
点进去之后,根据需要选择语料库,点击下载即可(此处可能需要V·P·N,保证下载速度快一些),如下图所示:
(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库_第2张图片

第二步 将下载好的bz2文件转换为txt(text)文件

利用Python脚本文件process.py 对bz2文件进行转换,保存如下代码至脚本process.py 即可。

import logging
import os.path
import sys
from gensim.corpora import WikiCorpus
if __name__ == '__main__':
	
	program = os.path.basename(sys.argv[0])
	logger = logging.getLogger(program)
	logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
	logging.root.setLevel(level=logging.INFO)
	logger.info("running %s" % ' '.join(sys.argv))
	
	if len(sys.argv) < 3:
		print(globals()['__doc__'] % locals())
		sys.exit(1)
	inp, outp = sys.argv[1:3]
	space = ' '
	i = 0
	output = open(outp, 'w', encoding='utf-8')
	wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
	for text in wiki.get_texts():
		s = space.join(text)
		s = s.encode('utf-8').decode('utf-8') + "\n"
		output.write(s)
		i += 1
		if (i % 10000 == 0):
			logger.info("saved" + str(i) + " articles")
	output.close()
	logger.info("Finished Saved " + str(i) + " articles")

将process.py 脚本与下载的bz2语料库放在同一个文件夹下,在该文件夹下打开cmd(同时按住shift键和鼠标右键,点击在此处打开Poweshell窗口),运行命令运行脚本文件:(保证Python在环境变量中)

 python process.py zhwiki-20191101-pages-meta-current.xml.bz2 wiki.zh.text

运行结果显示如图所示:
(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库_第3张图片
最终得到文件wiki.zh.text,其实也可以直接在后面加上后缀.txt,但本质上不会对后面的操作产生影响。
(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库_第4张图片

第三步 繁体转换为简体

由于Wikipedia的中文语料是繁体,在这里我们需要将其转换为简体。

利用opencc进行繁转简的操作,opencc64位的下载地址

链接:https://pan.baidu.com/s/1v8-orTUVuA3DSXUgNs25cQ
提取码:nt4f

下载下来解压后如下图所示:
(一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库_第5张图片

将txt文件放到该文件夹下,接着将该文件夹的路径添加进环境变量中。

同样地方式,在该文件夹下直接打开Power shell窗口(cmd),运行命令:

opencc -i wiki.zh.text.txt -o wiki_text.txt -c t2s.json

其中wiki.zh.text.txt是繁体文件,wiki_text.txt是简体文件,t2s.json是繁转简的配置文件。这几个文件在上图也有标注出来。

繁简转换完后生成简体文件,如下图所示:
在这里插入图片描述

你可能感兴趣的:(MachineLearning,word2vec,wikipedia,语料库)